Trier un incident de production sur Kubernetes
Quand l'utiliser : Une application se comporte mal en prod et vous devez regarder les pods, les événements, les logs sans alt-tab.
Prérequis
- kubeconfig avec accès au cluster — Standard
aws eks update-kubeconfigou équivalent
Déroulement
-
Trouver les pods en mauvais étatk8s : dans le contexte
prod-us-east, namespacecheckout, liste les pods qui ne sont pas en état Running. Inclus la raison + le nombre de redémarrages.✓ Copié→ Pods affichés avec état, raison, redémarrages -
Récupérer les événementsRécupère les événements dans ce namespace depuis les 30 dernières minutes, triés par heure.✓ Copié→ Liste d'événements ; OOMKilled ou ImagePullBackOff visible si présent
-
Récupérer les logsPour le pod au redémarrage le plus récent, récupère les logs du conteneur précédent (200 dernières lignes).✓ Copié→ Stack trace / cause visible
-
DiagnostiquerSynthèse : quelle est la cause racine probable et que doit-on faire ? Soyez précis.✓ Copié→ Prochaine étape concrète (ex. augmenter la limite mémoire + déployer)
Résultat : Triage en moins de 5 minutes avec noms de pods + lignes de logs cités.
Pièges
- Les logs d'un conteneur précédent manquant ne sont pas disponibles — Si le pod n'a redémarré qu'une fois, vérifiez les logs du conteneur actuel et du précédent seulement s'il a crashé
- Mauvais contexte — Spécifiez toujours le contexte par appel ; ne vous fiez pas à la dérive du current-context