Составить timeline инцидента из данных Grafana
Когда использовать: Сработал пейджер; нужен связный timeline до начала звонка.
Предварительные требования
- Токен service account Grafana — Grafana → Administration → Service accounts; для запросов достаточно роли Editor
Поток
-
Что срабатываетGrafana: перечисли срабатывающие alert'ы за последние 30 минут для service=checkout.✓ Скопировано→ list_alerts возвращает 1+ alert'ов с временными метками
-
Получить метрикуДля каждого alert'а выполни Prometheus range query по базовой метрике за последний 1 час. Зафиксируй момент превышения порога.✓ Скопировано→ query_prometheus_range возвращает временные ряды
-
Получить логи в момент нарушенияLoki: логи для service=checkout, level=error, [breach_time-2m, breach_time+2m]. Топ паттернов.✓ Скопировано→ Строки логов сгруппированы по сигнатуре
-
Составить timelineСоставь краткий timeline: сработал alert → превышение метрики → топ-3 паттерна ошибок в логах. Markdown для Slack.✓ Скопировано→ Timeline готов для вставки
Итог: Связный timeline инцидента собран до начала звонка.
Подводные камни
- Слишком широкий запрос Loki → превышение бюджета токенов — Всегда указывай лейбл service=; агрессивно ограничивай временное окно
- Слишком маленький шаг в запросе Prometheus — Используй step=15s или 30s для окон в 1 час