01
виклик
Що стояло на шляху
Ігрова студія зазнала 6-годинного збою, що коштував мільйони втраченого доходу та довіри гравців. Single-region архітектура мала RTO понад 4 години, не було автоматизованого failover, а плани disaster recovery існували лише на папері без регулярного тестування.
Ми побудували active-active setup на 3 AWS-регіони з Route 53 health checks, Aurora Global Database та DynamoDB global tables. Впровадили Terraform модулі для ідентичної інфраструктури в усіх регіонах, автоматизований failover з Lambda-based health monitors та щотижневі chaos engineering тести з Litmus.