кейс · Логістика

Observability-стек для європейської логістичної компанії

Побудували повний observability-стек з нуля з SLO-driven alerting — MTTR скорочено на 90%, alert fatigue усунено.

виклик

Що стояло на шляху

Компанія не мала моніторингу, окрім базових health checks. Проблеми в продакшні виявляли клієнти, MTTR становив 4 години, а on-call команда потопала в шумі сотень неправильно налаштованих CloudWatch алармів. Distributed tracing по 60+ мікросервісах був відсутній.

наше рішення

Як ми це вирішили

Ми розгорнули Prometheus для метрик, Grafana для візуалізації, Loki для агрегації логів та Tempo для distributed tracing. Визначили 15 SLO з error budgets, прив'язаними до бізнес-KPI, впровадили SLO-driven alerting та побудували runbooks для кожного alert.

результат

Вимірні результати

R / 01

90%

MTTR скорочено на — з 4 годин до 25 хвилин

R / 02

340+

Створено дашбордів

R / 03

Визначено та відстежується SLO

R / 04

70%

On-call pages скорочено на

технологічний стек

Що його живило

Prometheus

GrafanaSRE

наступний крок

Побудуймо наступний case study разом.

Записатися на дзвінок Надіслати запит