WOM
public@demo18 сценариев

Wheel of Misfortune Starter Pack

Публичный стартовый набор для ведущих и игроков.

Scenarios

#01
JUNIOR18 минDisk space, PVC expansion

Полный диск

MySQL-под падает из-за заполнения PVC бинарными логами. Нужны быстрый purge и расширение PVC.

#02
JUNIOR18 минConfigMap, Secret, env vars

Потерянная конфигурация

ConfigMap обновился, а поды не получили новых env vars. Плюс случайно потеряли Secret при apply.

#03
MIDDLE20 минКаскадный отказ после деплоя, rollback

Пятничный деплой

OOMKill после деплоя новой версии с утечкой памяти. Нужен срочный rollback до конца рабочего дня.

#04
MIDDLE22 минNode drain, PDB, PV zone affinity

Застрявшие поды

Плановый drain ноды зависает: PDB блокирует eviction, PV прибит к зоне без другой ноды.

#05
MIDDLE20 минCoreDNS, NetworkPolicy

Потерянные в DNS

CoreDNS потерял egress из-за новой NetworkPolicy — DNS мигает: кэш спасает, upstream недоступен.

#06
MIDDLE22 минTLS, cert-manager, LE rate limit

Сертификат исчез

LE rate limit исчерпан: cert-manager спамил попытки, т.к. HTTP-01 challenge падал — Gateway не слушает :80.

#07
SENIOR25 минIstio Ambient, VPC SG, каскадный отказ

Невидимая сеть

Hardening VPC SecurityGroup заблокировал межзональный трафик. Istio Ambient circuit breaker добил ситуацию.

#08
SENIOR25 минAuto-upgrade, stateful cascade

Обновление пошло не так

Auto-upgrade ночью сломал StatefulSet: PV прибит к зоне, Cassandra деградирует, Kafka теряет партиции.

#09
JUNIOR18 минReadiness/Liveness, неудачный rollout

Сломанные пробы

Readiness/Liveness probe ведут на устаревший путь после релиза — два из трёх подов вываливаются из сервиса.

#10
JUNIOR18 минResourceQuota, LimitRange, failed rollout

Квота съела релиз

ResourceQuota исчерпана, rollout завис. LimitRange запрещает снизить requests ниже минимума.

#11
JUNIOR18 минCronJob, concurrencyPolicy, runaway jobs

Шторм из CronJob

CronJob с concurrencyPolicy:Allow и коротким интервалом накапливает job-ы, перегружая postgres и API.

#12
MIDDLE20 минIngress, host/path routing, canary confusion

Призрачный маршрут

Второй Ingress с wildcard '/' перехватывает API-трафик, клиенты получают HTML вместо JSON.

#13
MIDDLE20 минHPA, плохая метрика, хаотичный скейлинг

Лживый автоскейлер

HPA использует aggregated метрику без нормализации по поду — self-amplifying loop разгоняет сервис до max.

#14
MIDDLE20 минObject Storage, credentials, частичный отказ

Пропавшее хранилище

Ночная ротация S3 access key сломала ExternalSecret — медиа-загрузки получают 403 InvalidAccessKeyId.

#15
MIDDLE20 минNode filesystem, container logs, noisy service

Потоп из логов

Debug-режим в сервисе заполняет локальный диск ноды — DiskPressure, eviction, ingress-controller на той же ноде.

#16
SENIOR22 минIAM, cloud service account, hidden dependency

Недостающие права

Security удалила IAM роль у cloud service account — ночной backup-job падает с AccessDenied на KMS.

#17
SENIOR22 минObservability, remote_write, false calm

Слепой мониторинг

remote_write сломан из-за ротации TLS CA — метрики не уходят в центральную систему, алерты молчат.

#18
SENIOR24 минCI/CD, migration, backward incompatibility

Схема ушла вперёд

DB migration удалила столбец, который ещё читает старый код после rollback — прямая несовместимость схемы.