01
виклик
Що стояло на шляху
Клієнт запускав ML-моделі на виділених GPU-інстансах без auto-scaling, що призводило до 10-кратного перепровіжнінгу в непікові години. Deployment моделей займав 2 дні ручної роботи, не було видимості вартості за inference чи метрик продуктивності моделей.
Ми розгорнули EKS кластер з Karpenter для just-in-time провіжнінгу GPU-нод та побудували LLM gateway для уніфікованого model serving. Впровадили KServe для стандартизованого deployment моделей, Prometheus-based cost attribution та canary rollouts для безпечних оновлень моделей.