WHEEL OF MISFORTUNE

Public · owner @demo

Wheel of Misfortune Starter Pack

Публичный стартовый набор для ведущих и игроков.

#1 · JUNIOR · 18 мин

Полный диск

MySQL-под падает из-за заполнения PVC бинарными логами. Нужны быстрый purge и расширение PVC.

Disk space, PVC expansion

#2 · JUNIOR · 18 мин

Потерянная конфигурация

ConfigMap обновился, а поды не получили новых env vars. Плюс случайно потеряли Secret при apply.

ConfigMap, Secret, env vars

#3 · MIDDLE · 20 мин

Пятничный деплой

OOMKill после деплоя новой версии с утечкой памяти. Нужен срочный rollback до конца рабочего дня.

Каскадный отказ после деплоя, rollback

#4 · MIDDLE · 22 мин

Застрявшие поды

Плановый drain ноды зависает: PDB блокирует eviction, PV прибит к зоне без другой ноды.

Node drain, PDB, PV zone affinity

#5 · MIDDLE · 20 мин

Потерянные в DNS

CoreDNS потерял egress из-за новой NetworkPolicy — DNS мигает: кэш спасает, upstream недоступен.

CoreDNS, NetworkPolicy

#6 · MIDDLE · 22 мин

Сертификат исчез

LE rate limit исчерпан: cert-manager спамил попытки, т.к. HTTP-01 challenge падал — Gateway не слушает :80.

TLS, cert-manager, LE rate limit

#7 · SENIOR · 25 мин

Невидимая сеть

Hardening VPC SecurityGroup заблокировал межзональный трафик. Istio Ambient circuit breaker добил ситуацию.

Istio Ambient, VPC SG, каскадный отказ

#8 · SENIOR · 25 мин

Обновление пошло не так

Auto-upgrade ночью сломал StatefulSet: PV прибит к зоне, Cassandra деградирует, Kafka теряет партиции.

Auto-upgrade, stateful cascade

#9 · JUNIOR · 18 мин

Сломанные пробы

Readiness/Liveness probe ведут на устаревший путь после релиза — два из трёх подов вываливаются из сервиса.

Readiness/Liveness, неудачный rollout

#10 · JUNIOR · 18 мин

Квота съела релиз

ResourceQuota исчерпана, rollout завис. LimitRange запрещает снизить requests ниже минимума.

ResourceQuota, LimitRange, failed rollout

#11 · JUNIOR · 18 мин

Шторм из CronJob

CronJob с concurrencyPolicy:Allow и коротким интервалом накапливает job-ы, перегружая postgres и API.

CronJob, concurrencyPolicy, runaway jobs

#12 · MIDDLE · 20 мин

Призрачный маршрут

Второй Ingress с wildcard '/' перехватывает API-трафик, клиенты получают HTML вместо JSON.

Ingress, host/path routing, canary confusion

#13 · MIDDLE · 20 мин

Лживый автоскейлер

HPA использует aggregated метрику без нормализации по поду — self-amplifying loop разгоняет сервис до max.

HPA, плохая метрика, хаотичный скейлинг

#14 · MIDDLE · 20 мин

Пропавшее хранилище

Ночная ротация S3 access key сломала ExternalSecret — медиа-загрузки получают 403 InvalidAccessKeyId.

Object Storage, credentials, частичный отказ

#15 · MIDDLE · 20 мин

Потоп из логов

Debug-режим в сервисе заполняет локальный диск ноды — DiskPressure, eviction, ingress-controller на той же ноде.

Node filesystem, container logs, noisy service

#16 · SENIOR · 22 мин

Недостающие права

Security удалила IAM роль у cloud service account — ночной backup-job падает с AccessDenied на KMS.

IAM, cloud service account, hidden dependency

#17 · SENIOR · 22 мин

Слепой мониторинг

remote_write сломан из-за ротации TLS CA — метрики не уходят в центральную систему, алерты молчат.

Observability, remote_write, false calm

#18 · SENIOR · 24 мин

Схема ушла вперёд

DB migration удалила столбец, который ещё читает старый код после rollback — прямая несовместимость схемы.

CI/CD, migration, backward incompatibility