Zabbix упал, SSH не отвечает, админка мертва — что делать?

Утром звонок от клиента: «Всё сломалось! Ничего не работает!»
Zabbix не шлёт оповещения, в админку не зайти, на нескольких серверах даже SSH не отвечает. Паника — особенно если вы зависите от мониторинга (например, у вас холодильники, камеры или онлайн-кассы).

Диагностика: ищу общую точку отказа

Первое, что проверяю — не локальная ли проблема на одном сервере. Но:

SSH не работает на нескольких машинах,
Веб-интерфейсы недоступны,
Сами хосты в сети — пинг есть.

Вывод: проблема не в сетях и не в приложениях. Скорее всего — на уровне хоста, где всё это запущено.

Логинюсь в консоль Proxmox (гипервизор, на котором крутятся все ВМ). Вижу: все виртуальные машины — «online», но… не отвечают. Подключаюсь к консоли самой ВМ с Zabbix — и там вижу:

  kernel: [XXXXX.XXXXX] EXT4-fs error (device vda1): ... I/O error

  mount: /data: mount failed: Input/output error

Диск отмонтировался из-за ошибок ввода-вывода. А почему? Потому что:

Zabbix пишет логи постоянно,
База данных растёт,
А всё это — на обычном HDD (не SSD!), который уже лет 5 в работе.

Подозреваю: старый диск + высокая нагрузка + задержки → ядро решило «отключить» раздел, чтобы не усугублять повреждения.

Решение: быстро и без потерь

Полная диагностика диска — да, нужно. Замена на SSD — да, обязательно. Но клиенту сейчас нужно, чтобы всё заработало.

Решение: быстро восстановил работу — и заложил основу для стабильности

Полная замена диска или миграция на SSD — это отдельный этап. А прямо сейчас клиенту нужно, чтобы всё заработало. Поэтому:

Временно скорректировал параметры ввода-вывода ядра (увеличил disk_timeout), чтобы система не отключала диск при кратковременных задержках — типичная проблема старых HDD под нагрузкой от Zabbix и виртуальных машин,
Аккуратно перемонтировал раздел с опцией remount,rw — файловая система оказалась целой,
Перезапустил критичные сервисы. Все ВМ остались онлайн, Zabbix заработал, SSH и веб-интерфейсы — доступны.

Если бы просто перезагрузил — тоже помогло бы. Но так я не только вернул систему в строй, но и снизил риск повторного падения до конца дня.

Потрачено: ~30 минут от звонка до полного восстановления.
Потери данных: нулевые.

Что сделаю дальше (и что предложу клиенту)

Такие сбои — сигнал. Даже если «само прошло», диск может умереть окончательно завтра. Поэтому в ближайшие дни:

Проверю SMART-статус диска (там оказалось все норм),
Предложу перенести Zabbix и критичные ВМ на SSD,
Настрою алерт в самом Zabbix на ошибки монтирования (да, можно!)

  Вывод для бизнеса: «Просто перезагрузить» — это не волшебство, а результат понимания, где искать проблему. И чем раньше вы вызовете специалиста — тем меньше простоев.

Нужна надёжная инфраструктура без паники?

Я помогаю малому бизнесу поддерживать серверы, мониторинг и виртуальные машины в рабочем состоянии — без ночных звонков и потерь данных.

← Назад к списку

Кто я?