Констекты из книги "Наука отладки" Часть 8. Распределенные компьютерные системы. Уроки ошибок |
Автор megabax | |
18.03.2010 г. | |
Распределенные компьютерные системы в реальной жизни. Уроки ошибок.
Это продолжение предыдущего конспекта.
Проблема Почему, несмотря на то, что причины сбоя (ответы базы данных занимали больше времени, чем планировалось изначально) были видны в файлах протоколов, тем не менее, их было трудно отследить?
Фактографические данные Причины трудности локализации проблемы в обоих случаях (когда программист работал в компании X и компании Y: · Компонентное мышление. Инженеры концентрировали внимание на отдельных компонентах системы и никому не пришло в голову рассмотреть систему в целом. · Ориентировка по вторичным признакам. Инженеры искали видимые признаки подтверждения их гипотез, а не анализировали всех наблюдений. · Игнорирование подсказок. Важнейшие подсказки игнорировались. Например, увеличение нагрузки процессоров. Слишком долго время обработки запросов записывалось в протококк в течении двух месяцев, но из за недостатка времени или других ресурсов на этот сигнал вовремя не прореагировали.
Выводы Проблемы, возникшие в компаниях X и Y можно было предотвратить следующим образом: · Используя лучшие инструменты мониторинга. · Строгое следование правилам.
Источник: Мэтт Тэллес, Юань Хсих, "Наука отладки". Продолжение следует.
|
|
Последнее обновление ( 18.02.2013 г. ) |