Gambit Updates
მონიტორინგი, რომელიც მუშაობს: ალერტები, “noise” და პასუხისმგებლობა
სხვაობა “მონიტორინგი გვაქვს” და “ავარიებს ვასწრებთ”: ownership, ზღვრები და escalation.
მონიტორინგი, რომელიც მუშაობს
ownership
ყოველ სერვისზე უნდა იყოს:
- პასუხისმგებელი პირი
- რა არის “ნორმა”
- რა ხდება ალერტის დროს
ნაკლები noise
უკეთესია symptom-based ალერტები (down/error rate/backup failed) ვიდრე ყველაფერზე CPU.
გინდა მონიტორინგისა და escalation რუკა? /ka/consultation