Triar un incidente de producción en Kubernetes
Cuándo usarlo: Una app se comporta mal en producción y necesitas revisar pods, eventos y logs sin alt-tab.
Requisitos previos
- kubeconfig con acceso al cluster — Estándar
aws eks update-kubeconfigo equivalente
Flujo
-
Encontrar pods no saludablesk8s: en el contexto
prod-us-east, namespacecheckout, lista los pods que no están en estado Running. Incluye reason + restart count.✓ Copiado→ Pods mostrados con estado, reason y reinicios -
Obtener eventosObtén los eventos en ese namespace de los últimos 30 minutos, ordenados por tiempo.✓ Copiado→ Lista de eventos; OOMKilled o ImagePullBackOff visible si están presentes
-
Obtener logsPara el pod con el reinicio más reciente, muestra los logs del contenedor anterior (últimas 200 líneas).✓ Copiado→ Stack trace / causa visible
-
DiagnosticarSintetiza: ¿cuál es probablemente la causa raíz y qué deberíamos hacer? Sé específico.✓ Copiado→ Próximo paso concreto (p. ej. aumentar límite de memoria + desplegar)
Resultado: Triaje en menos de 5 minutos con nombres de pod y líneas de log citados.
Errores comunes
- Los logs del contenedor anterior no están disponibles — Si el pod solo se reinició una vez, comprueba los logs del contenedor actual y el anterior solo si se crasheó
- Contexto incorrecto — Especifica siempre el contexto por llamada; no confíes en la deriva de current-context