Construir un timeline de incidente con datos de Grafana
Cuándo usarlo: Acaba de dispararse la alerta; quieres un timeline coherente antes de unirte a la llamada.
Requisitos previos
- Token de cuenta de servicio de Grafana — Grafana → Administration → Service accounts; el rol Editor es suficiente para consultas
Flujo
-
Qué está disparandoGrafana: lista las alertas disparadas en los últimos 30 minutos para service=checkout.✓ Copiado→ list_alerts devuelve 1+ alertas con timestamps
-
Extraer la métricaPara cada alerta, ejecuta una consulta de rango Prometheus para la métrica subyacente en la última 1h. Anota el momento de la brecha.✓ Copiado→ query_prometheus_range devuelve series temporales
-
Extraer logs en el momento de la brechaLoki: logs para service=checkout, level=error, [breach_time-2m, breach_time+2m]. Patrones principales.✓ Copiado→ Líneas de log agrupadas por firma
-
Componer el timelineConstruye un timeline conciso: alerta disparada → brecha de métrica → top 3 patrones de log de error. Markdown para Slack.✓ Copiado→ Timeline listo para pegar
Resultado: Timeline de incidente coherente montado antes de unirte a la llamada.
Errores comunes
- Consulta Loki demasiado amplia → explota el presupuesto de tokens — Incluye siempre el label service=; limita agresivamente la ventana temporal
- Consulta Prometheus con step demasiado fino — Usa step=15s o 30s para ventanas de 1h