Einen Produktionsincident auf Kubernetes triagieren
Wann einsetzen: Eine App verhält sich in Produktion falsch; Pods, Events und Logs sollen ohne Alt-Tab eingesehen werden.
Voraussetzungen
- kubeconfig mit Zugriff auf den Cluster — Standard
aws eks update-kubeconfigoder Äquivalent
Ablauf
-
Ungesunde Pods findenk8s: im Kontext
prod-us-east, Namespacecheckout, Pods auflisten, die nicht im Running-Zustand sind. Grund + Restart-Anzahl einschließen.✓ Kopiert→ Pods mit State, Grund, Restarts angezeigt -
Events abrufenEvents in dem Namespace aus den letzten 30 Minuten abrufen, nach Zeit sortiert.✓ Kopiert→ Event-Liste; OOMKilled oder ImagePullBackOff sichtbar, falls vorhanden
-
Logs abrufenFür den Pod mit dem neuesten Restart die Logs des vorherigen Containers abrufen (letzte 200 Zeilen).✓ Kopiert→ Stack-Trace / Ursache sichtbar
-
DiagnostizierenZusammenfassen: Was ist die wahrscheinliche Ursache und was ist zu tun? Konkret sein.✓ Kopiert→ Konkreter nächster Schritt (z. B. Speicherlimit erhöhen + ausrollen)
Ergebnis: Triage in unter 5 Minuten mit zitierten Pod-Namen und Log-Zeilen.
Fallstricke
- Logs eines fehlenden vorherigen Containers nicht verfügbar — Wenn Pod nur einmal neu gestartet wurde, aktuelle Container-Logs prüfen; vorherige nur bei Absturz
- Falscher Kontext — Kontext immer pro Aufruf angeben; nicht auf current-context-Drift verlassen