кейс · AdTech

Платформа AI-інференсу для AdTech

Побудували multi-model платформу AI-інференсу на GPU-прискореному Kubernetes з відстеженням cost-per-inference та автоматичним масштабуванням.

виклик

Що стояло на шляху

Клієнт запускав ML-моделі на виділених GPU-інстансах без auto-scaling, що призводило до 10-кратного перепровіжнінгу в непікові години. Deployment моделей займав 2 дні ручної роботи, не було видимості вартості за inference чи метрик продуктивності моделей.

наше рішення

Як ми це вирішили

Ми розгорнули EKS кластер з Karpenter для just-in-time провіжнінгу GPU-нод та побудували LLM gateway для уніфікованого model serving. Впровадили KServe для стандартизованого deployment моделей, Prometheus-based cost attribution та canary rollouts для безпечних оновлень моделей.

результат

Вимірні результати

R / 01

-кратне покращення пропускної здатності

R / 02

55%

Вартість за inference скорочено на

R / 03

Auto-scaling витримує -кратні сплески трафіку

R / 04

Час deployment моделей скорочено з днів до 45 хвилин

технологічний стек

Що його живило

KubernetesGPUAI

наступний крок

Побудуймо наступний case study разом.

Записатися на дзвінок Надіслати запит