Monte uma timeline de incidente a partir dos dados do Grafana
Quando usar: O pager disparou; você quer uma timeline coerente antes de entrar na call.
Pré-requisitos
- Token de service account do Grafana — Grafana → Administration → Service accounts; a role Editor é suficiente para consultas
Fluxo
-
O que está disparandoGrafana: liste alertas disparando nos últimos 30 minutos para service=checkout.✓ Copiado→ list_alerts retorna 1+ alertas com timestamps
-
Busque a métricaPara cada alerta, execute uma range query Prometheus para a métrica subjacente na última 1h. Observe o horário de violação.✓ Copiado→ query_prometheus_range retorna série temporal
-
Busque logs no momento da violaçãoLoki: logs para service=checkout, level=error, [horário_violação-2m, horário_violação+2m]. Padrões principais.✓ Copiado→ Linhas de log agrupadas por assinatura
-
Monte a timelineMonte uma timeline concisa: alerta disparado → violação de métrica → top 3 padrões de log de erro. Markdown para Slack.✓ Copiado→ Timeline pronta para colar
Resultado: Timeline de incidente coerente montada antes de você entrar na call.
Armadilhas
- Query Loki muito ampla → estoura o budget de tokens — Sempre inclua label service=; limite a janela de tempo agressivamente
- Query Prometheus com step muito fino — Use step=15s ou 30s para janelas de 1h