.
Констекты из книги "Наука отладки" Часть 8. Распределенные компьютерные системы. Уроки ошибок
Автор megabax   
18.03.2010 г.
Название

Распределенные компьютерные системы в реальной жизни. Уроки ошибок.

 

Это продолжение предыдущего конспекта.

 

Проблема

Почему, несмотря на то, что причины сбоя (ответы базы данных занимали больше времени, чем планировалось изначально) были видны в файлах протоколов, тем не менее, их было трудно отследить? 

 

Фактографические данные

Причины трудности локализации проблемы в обоих случаях (когда программист работал в компании X и компании Y:

·        Компонентное мышление. Инженеры концентрировали внимание на отдельных компонентах системы и никому не пришло в голову рассмотреть систему в целом.

·        Ориентировка по вторичным признакам. Инженеры искали видимые признаки подтверждения их гипотез, а не анализировали всех наблюдений.

·        Игнорирование подсказок. Важнейшие подсказки игнорировались. Например, увеличение нагрузки процессоров. Слишком долго время обработки запросов записывалось в протококк в течении двух месяцев, но из за недостатка времени или других ресурсов на этот сигнал вовремя не прореагировали.

 

Выводы

Проблемы, возникшие в компаниях X и Y можно было предотвратить следующим образом:

·        Используя лучшие инструменты мониторинга.

·        Строгое следование правилам.

 

Источник: Мэтт Тэллес, Юань Хсих, "Наука отладки".

Продолжение следует.

 

Последнее обновление ( 18.02.2013 г. )