Player View
Тренировочный режим игрока в стиле incident quest.
Выбери инцидент
Один сценарий — 10 раундов расследования от Detection до Recovery.
MySQL-под падает из-за заполнения PVC бинарными логами. Нужны быстрый purge и расширение PVC.
Disk space, PVC expansion · 18 мин
ConfigMap обновился, а поды не получили новых env vars. Плюс случайно потеряли Secret при apply.
ConfigMap, Secret, env vars · 18 мин
OOMKill после деплоя новой версии с утечкой памяти. Нужен срочный rollback до конца рабочего дня.
Каскадный отказ после деплоя, rollback · 20 мин
Плановый drain ноды зависает: PDB блокирует eviction, PV прибит к зоне без другой ноды.
Node drain, PDB, PV zone affinity · 22 мин
CoreDNS потерял egress из-за новой NetworkPolicy — DNS мигает: кэш спасает, upstream недоступен.
CoreDNS, NetworkPolicy · 20 мин
LE rate limit исчерпан: cert-manager спамил попытки, т.к. HTTP-01 challenge падал — Gateway не слушает :80.
TLS, cert-manager, LE rate limit · 22 мин
Hardening VPC SecurityGroup заблокировал межзональный трафик. Istio Ambient circuit breaker добил ситуацию.
Istio Ambient, VPC SG, каскадный отказ · 25 мин
Auto-upgrade ночью сломал StatefulSet: PV прибит к зоне, Cassandra деградирует, Kafka теряет партиции.
Auto-upgrade, stateful cascade · 25 мин
Readiness/Liveness probe ведут на устаревший путь после релиза — два из трёх подов вываливаются из сервиса.
Readiness/Liveness, неудачный rollout · 18 мин
ResourceQuota исчерпана, rollout завис. LimitRange запрещает снизить requests ниже минимума.
ResourceQuota, LimitRange, failed rollout · 18 мин
CronJob с concurrencyPolicy:Allow и коротким интервалом накапливает job-ы, перегружая postgres и API.
CronJob, concurrencyPolicy, runaway jobs · 18 мин
Второй Ingress с wildcard '/' перехватывает API-трафик, клиенты получают HTML вместо JSON.
Ingress, host/path routing, canary confusion · 20 мин
HPA использует aggregated метрику без нормализации по поду — self-amplifying loop разгоняет сервис до max.
HPA, плохая метрика, хаотичный скейлинг · 20 мин
Ночная ротация S3 access key сломала ExternalSecret — медиа-загрузки получают 403 InvalidAccessKeyId.
Object Storage, credentials, частичный отказ · 20 мин
Debug-режим в сервисе заполняет локальный диск ноды — DiskPressure, eviction, ingress-controller на той же ноде.
Node filesystem, container logs, noisy service · 20 мин
Security удалила IAM роль у cloud service account — ночной backup-job падает с AccessDenied на KMS.
IAM, cloud service account, hidden dependency · 22 мин
remote_write сломан из-за ротации TLS CA — метрики не уходят в центральную систему, алерты молчат.
Observability, remote_write, false calm · 22 мин
DB migration удалила столбец, который ещё читает старый код после rollback — прямая несовместимость схемы.
CI/CD, migration, backward incompatibility · 24 мин