Construire une timeline d'incident depuis les données Grafana
Quand l'utiliser : L'alerte vient de se déclencher ; vous voulez une timeline cohérente avant de rejoindre l'appel.
Prérequis
- Token de compte de service Grafana — Grafana → Administration → Comptes de service ; le rôle Éditeur suffit pour les requêtes
Déroulement
-
Ce qui se déclencheGrafana : liste les alertes en feu dans les 30 dernières minutes pour service=checkout.✓ Copié→ list_alerts retourne 1+ alertes avec timestamps
-
Récupérer la métriquePour chaque alerte, lance une range query Prometheus pour la métrique sous-jacente sur la dernière heure. Note l'heure de dépassement du seuil.✓ Copié→ query_prometheus_range retourne des séries temporelles
-
Récupérer les logs au moment du dépassementLoki : logs pour service=checkout, level=error, [heure_breach-2m, heure_breach+2m]. Principaux patterns.✓ Copié→ Lignes de log regroupées par signature
-
Composer la timelineConstruis une timeline concise : alerte déclenchée → dépassement de métrique → top 3 patterns d'erreurs de logs. Markdown pour Slack.✓ Copié→ Timeline prête à coller
Résultat : Timeline d'incident cohérente assemblée avant de rejoindre l'appel.
Pièges
- Requête Loki trop large → fait exploser le budget token — Incluez toujours le label service= ; limitez la fenêtre temporelle agressivement
- Requête Prometheus avec un step trop fin — Utilisez step=15s ou 30s pour des fenêtres d'1h