Loading...
Усі кейси
кейс · AdTech

Платформа AI-інференсу для AdTech

Побудували multi-model платформу AI-інференсу на GPU-прискореному Kubernetes з відстеженням cost-per-inference та автоматичним масштабуванням.

01
виклик

Що стояло на шляху

Клієнт запускав ML-моделі на виділених GPU-інстансах без auto-scaling, що призводило до 10-кратного перепровіжнінгу в непікові години. Deployment моделей займав 2 дні ручної роботи, не було видимості вартості за inference чи метрик продуктивності моделей.

02
наше рішення

Як ми це вирішили

Ми розгорнули EKS кластер з Karpenter для just-in-time провіжнінгу GPU-нод та побудували LLM gateway для уніфікованого model serving. Впровадили KServe для стандартизованого deployment моделей, Prometheus-based cost attribution та canary rollouts для безпечних оновлень моделей.

03
результат

Вимірні результати

R / 01
3
-кратне покращення пропускної здатності
R / 02
55%
Вартість за inference скорочено на
R / 03
10
Auto-scaling витримує -кратні сплески трафіку
R / 04
2
Час deployment моделей скорочено з днів до 45 хвилин
04
технологічний стек

Що його живило

KubernetesKubernetesGPUAI
наступний крок

Побудуймо наступний case study разом.

talk to an engineerFree 30-min discovery callBook
close