Полный диск
MySQL-под падает из-за заполнения PVC бинарными логами. Нужны быстрый purge и расширение PVC.
Публичный стартовый набор для ведущих и игроков.
Scenarios
MySQL-под падает из-за заполнения PVC бинарными логами. Нужны быстрый purge и расширение PVC.
ConfigMap обновился, а поды не получили новых env vars. Плюс случайно потеряли Secret при apply.
OOMKill после деплоя новой версии с утечкой памяти. Нужен срочный rollback до конца рабочего дня.
Плановый drain ноды зависает: PDB блокирует eviction, PV прибит к зоне без другой ноды.
CoreDNS потерял egress из-за новой NetworkPolicy — DNS мигает: кэш спасает, upstream недоступен.
LE rate limit исчерпан: cert-manager спамил попытки, т.к. HTTP-01 challenge падал — Gateway не слушает :80.
Hardening VPC SecurityGroup заблокировал межзональный трафик. Istio Ambient circuit breaker добил ситуацию.
Auto-upgrade ночью сломал StatefulSet: PV прибит к зоне, Cassandra деградирует, Kafka теряет партиции.
Readiness/Liveness probe ведут на устаревший путь после релиза — два из трёх подов вываливаются из сервиса.
ResourceQuota исчерпана, rollout завис. LimitRange запрещает снизить requests ниже минимума.
CronJob с concurrencyPolicy:Allow и коротким интервалом накапливает job-ы, перегружая postgres и API.
Второй Ingress с wildcard '/' перехватывает API-трафик, клиенты получают HTML вместо JSON.
HPA использует aggregated метрику без нормализации по поду — self-amplifying loop разгоняет сервис до max.
Ночная ротация S3 access key сломала ExternalSecret — медиа-загрузки получают 403 InvalidAccessKeyId.
Debug-режим в сервисе заполняет локальный диск ноды — DiskPressure, eviction, ingress-controller на той же ноде.
Security удалила IAM роль у cloud service account — ночной backup-job падает с AccessDenied на KMS.
remote_write сломан из-за ротации TLS CA — метрики не уходят в центральную систему, алерты молчат.
DB migration удалила столбец, который ещё читает старый код после rollback — прямая несовместимость схемы.