Loading...
Усі кейси
кейс · Логістика

Observability-стек для європейської логістичної компанії

Побудували повний observability-стек з нуля з SLO-driven alerting — MTTR скорочено на 90%, alert fatigue усунено.

01
виклик

Що стояло на шляху

Компанія не мала моніторингу, окрім базових health checks. Проблеми в продакшні виявляли клієнти, MTTR становив 4 години, а on-call команда потопала в шумі сотень неправильно налаштованих CloudWatch алармів. Distributed tracing по 60+ мікросервісах був відсутній.

02
наше рішення

Як ми це вирішили

Ми розгорнули Prometheus для метрик, Grafana для візуалізації, Loki для агрегації логів та Tempo для distributed tracing. Визначили 15 SLO з error budgets, прив'язаними до бізнес-KPI, впровадили SLO-driven alerting та побудували runbooks для кожного alert.

03
результат

Вимірні результати

R / 01
90%
MTTR скорочено на — з 4 годин до 25 хвилин
R / 02
340+
Створено дашбордів
R / 03
15
Визначено та відстежується SLO
R / 04
70%
On-call pages скорочено на
04
технологічний стек

Що його живило

PrometheusPrometheusGrafanaGrafanaSRE
наступний крок

Побудуймо наступний case study разом.

talk to an engineerFree 30-min discovery callBook
close