Eine Incident-Timeline aus Grafana-Daten aufbauen
Wann einsetzen: Pager hat ausgelöst; eine kohärente Timeline wird vor dem Call benötigt.
Voraussetzungen
- Grafana-Service-Account-Token — Grafana → Administration → Service accounts; Editor-Rolle reicht für Queries
Ablauf
-
Was feuertGrafana: in den letzten 30 Minuten feuernde Alerts für service=checkout auflisten.✓ Kopiert→ list_alerts gibt 1+ Alerts mit Timestamps zurück
-
Die Metrik ziehenFür jeden Alert eine Prometheus-Range-Query für die zugrunde liegende Metrik über die letzte Stunde ausführen. Breach-Zeitpunkt notieren.✓ Kopiert→ query_prometheus_range gibt Zeitreihen zurück
-
Logs beim Breach ziehenLoki: Logs für service=checkout, level=error, [breach_time-2m, breach_time+2m]. Top-Muster anzeigen.✓ Kopiert→ Log-Zeilen nach Signatur geclustert
-
Timeline zusammenstellenPrägnante Timeline erstellen: Alert ausgelöst → Metrik-Breach → Top-3-Fehler-Log-Muster. Markdown für Slack.✓ Kopiert→ Timeline bereit zum Einfügen
Ergebnis: Kohärente Incident-Timeline zusammengestellt, bevor der Call beginnt.
Fallstricke
- Loki-Query zu breit → Token-Budget gesprengt — Immer service=-Label einschließen; Zeitfenster aggressiv begrenzen
- Prometheus-Query mit zu feinem step — step=15s oder 30s für 1h-Fenster verwenden