Gambit Updates
Мониторинг, который работает: алерты, шум и ответственность
Разница между “у нас есть мониторинг” и “мы предотвращаем простои”: ownership, пороги и эскалация.
Мониторинг, который работает
Ownership
Для каждого сервиса:
- ответственный
- что считается нормой
- что делать при алерте
Меньше шума
Лучше symptom-based алерты (down/error rate/backup failed), чем алертить CPU везде.
Нужна карта мониторинга и эскалации? /ru/consultation