Обложка канала

ServerAdmin.ru

12437 @srv_admin

Авторская информация о системном администрировании.

ServerAdmin.ru

3 года назад
Открыть в
​​Продолжу тему мониторинга. Думаю многие уже заметили, что это одна из самых популярных тематик на канале. Вообще, я давно заметил, что мониторинг это то, чем мне нравится заниматься больше всего остального. И для этого есть несколько причин. Во-первых, мониторинг чаще всего не критически важный сервис, поэтому им можно заниматься планово, без авралов и аварий. Во-вторых, это творческая деятельность, где надо постоянно придумывать нетиповую реализацию. Ну а в-третьих, это просто красиво, смотреть всякие графики, делать дашборды, наблюдать метрики. Поделюсь парой универсальных советов, которые будут актуальны для любой системы мониторинга, независимо от реализации. 1️⃣ Если у вас срочные триггеры висят незакрытыми днями и неделями, можете смело их отключать или менять. У меня это постоянно происходит. Изначально настраиваешь мониторинг и думаешь, что вот на это надо реагировать. А потом то времени нет, то отложишь и забудешь, а по факту оказывается, что алерт не очень то и важный. Периодически захожу в мониторинг и прорабатываю подобные триггеры. 2️⃣ Часто нет необходимости реагировать на метрики, за которыми стоят вышестоящие метрики, напрямую зависящие от первых. Лучше делать оповещения на более высокоуровневые сущности. Поясню на конкретном примере. Допустим, вы мониторите доступность сайтов (старая, но полностью актуальная статья про Zabbix, так как там модуль мониторинга сайтов с тех пор не менялся). Для них есть метрики, следящие за кодами ответов веб сервера, за скоростью ответов и за полосу пропускания, с которой сайты отдают данные. Сайты живут на отдельном сервере. На этом сервере есть триггеры на нагрузку на процессор, на память и т.д. У вас периодически случаются какие-то временные наплывы посетителей или ботов, делаются дампы базы данных, бэкапы информации и т.д. Всё это может приводить к срабатыванию триггеров на память, диск, сеть и т.д. Но для вас они не являются критичными, так как основное это метрики доступности сайта, которые могут не выходить за определённые вами пороги. То есть по факту всё в порядке, но периодически вы будете получать оповещения от других метрик.  Вы можете гибко настраивать временные интервалы срабатывания триггеров, калибровать их, отлаживать пороговые значения и т.д. А можете просто всё отключить и оставить оповещения только на метрики непосредственно сайтов (код ответа, отклик, скорость загрузки). А дальше уже разбираться, в чём была проблема, так как все данные собирались, есть графики и т.д. Вы даже триггеры можете оставить, чтобы потом проще было ориентироваться в ситуации, просто оповещения с этих триггеров отключите, чтобы они вас не отвлекали. ❗️По первому пункту я написал, но при этом у меня есть вот такие триггеры (см. картинку). Вы что делаете с такими висюнами? Отключаете или так же месяцами висят? #zabbix #мониторинг