01
виклик
Що стояло на шляху
Компанія не мала моніторингу, окрім базових health checks. Проблеми в продакшні виявляли клієнти, MTTR становив 4 години, а on-call команда потопала в шумі сотень неправильно налаштованих CloudWatch алармів. Distributed tracing по 60+ мікросервісах був відсутній.
Ми розгорнули Prometheus для метрик, Grafana для візуалізації, Loki для агрегації логів та Tempo для distributed tracing. Визначили 15 SLO з error budgets, прив'язаними до бізнес-KPI, впровадили SLO-driven alerting та побудували runbooks для кожного alert.