#1 · JUNIOR · 18 мин
Полный диск
MySQL-под падает из-за заполнения PVC бинарными логами. Нужны быстрый purge и расширение PVC.
Disk space, PVC expansion
Public · owner @demo
Публичный стартовый набор для ведущих и игроков.
#1 · JUNIOR · 18 мин
MySQL-под падает из-за заполнения PVC бинарными логами. Нужны быстрый purge и расширение PVC.
Disk space, PVC expansion
#2 · JUNIOR · 18 мин
ConfigMap обновился, а поды не получили новых env vars. Плюс случайно потеряли Secret при apply.
ConfigMap, Secret, env vars
#3 · MIDDLE · 20 мин
OOMKill после деплоя новой версии с утечкой памяти. Нужен срочный rollback до конца рабочего дня.
Каскадный отказ после деплоя, rollback
#4 · MIDDLE · 22 мин
Плановый drain ноды зависает: PDB блокирует eviction, PV прибит к зоне без другой ноды.
Node drain, PDB, PV zone affinity
#5 · MIDDLE · 20 мин
CoreDNS потерял egress из-за новой NetworkPolicy — DNS мигает: кэш спасает, upstream недоступен.
CoreDNS, NetworkPolicy
#6 · MIDDLE · 22 мин
LE rate limit исчерпан: cert-manager спамил попытки, т.к. HTTP-01 challenge падал — Gateway не слушает :80.
TLS, cert-manager, LE rate limit
#7 · SENIOR · 25 мин
Hardening VPC SecurityGroup заблокировал межзональный трафик. Istio Ambient circuit breaker добил ситуацию.
Istio Ambient, VPC SG, каскадный отказ
#8 · SENIOR · 25 мин
Auto-upgrade ночью сломал StatefulSet: PV прибит к зоне, Cassandra деградирует, Kafka теряет партиции.
Auto-upgrade, stateful cascade
#9 · JUNIOR · 18 мин
Readiness/Liveness probe ведут на устаревший путь после релиза — два из трёх подов вываливаются из сервиса.
Readiness/Liveness, неудачный rollout
#10 · JUNIOR · 18 мин
ResourceQuota исчерпана, rollout завис. LimitRange запрещает снизить requests ниже минимума.
ResourceQuota, LimitRange, failed rollout
#11 · JUNIOR · 18 мин
CronJob с concurrencyPolicy:Allow и коротким интервалом накапливает job-ы, перегружая postgres и API.
CronJob, concurrencyPolicy, runaway jobs
#12 · MIDDLE · 20 мин
Второй Ingress с wildcard '/' перехватывает API-трафик, клиенты получают HTML вместо JSON.
Ingress, host/path routing, canary confusion
#13 · MIDDLE · 20 мин
HPA использует aggregated метрику без нормализации по поду — self-amplifying loop разгоняет сервис до max.
HPA, плохая метрика, хаотичный скейлинг
#14 · MIDDLE · 20 мин
Ночная ротация S3 access key сломала ExternalSecret — медиа-загрузки получают 403 InvalidAccessKeyId.
Object Storage, credentials, частичный отказ
#15 · MIDDLE · 20 мин
Debug-режим в сервисе заполняет локальный диск ноды — DiskPressure, eviction, ingress-controller на той же ноде.
Node filesystem, container logs, noisy service
#16 · SENIOR · 22 мин
Security удалила IAM роль у cloud service account — ночной backup-job падает с AccessDenied на KMS.
IAM, cloud service account, hidden dependency
#17 · SENIOR · 22 мин
remote_write сломан из-за ротации TLS CA — метрики не уходят в центральную систему, алерты молчат.
Observability, remote_write, false calm
#18 · SENIOR · 24 мин
DB migration удалила столбец, который ещё читает старый код после rollback — прямая несовместимость схемы.
CI/CD, migration, backward incompatibility