Triagem de incidente de produção no Kubernetes
Quando usar: Um app está com mau comportamento em prod e você precisa verificar pods, eventos e logs sem Alt+Tab.
Pré-requisitos
- kubeconfig com acesso ao cluster — Padrão
aws eks update-kubeconfigou equivalente
Fluxo
-
Encontre pods não saudáveisk8s: no contexto
prod-us-east, namespacecheckout, liste pods que não estão no estado Running. Inclua motivo + contagem de reinicializações.✓ Copiado→ Pods mostrados com estado, motivo e reinicializações -
Obtenha eventosObtenha eventos nesse namespace dos últimos 30 minutos, ordenados por tempo.✓ Copiado→ Lista de eventos; OOMKilled ou ImagePullBackOff visíveis se presentes
-
Obtenha logsPara o pod com o reinício mais recente, capture os logs do container anterior (últimas 200 linhas).✓ Copiado→ Stack trace / causa visível
-
DiagnostiqueSintetize: qual é a causa-raiz provável e o que devemos fazer? Seja específico.✓ Copiado→ Próximo passo concreto (ex: aumentar limite de memória + fazer rollout)
Resultado: Triagem em menos de 5 minutos com nomes de pods + linhas de log citados.
Armadilhas
- Logs de um container anterior ausente não estão disponíveis — Se o pod reiniciou apenas uma vez, verifique os logs do container atual e o anterior apenas se crashou
- Contexto errado — Sempre especifique o contexto por chamada; não dependa do drift do current-context