헷갈리는 Grafana Alert 설정 옵션 정리

Kubernetes

헷갈리는 Grafana Alert 설정 옵션 정리

wath1457 2024. 3. 3. 13:55

Grafana + slack 알림봇 구축을 진행하면서 헷갈렸던 개념들에 대해서 간단하게 정리해보려고 한다.

Prometheus metric이 특정 threshold를 넘어가게 되면(임계점을 넘는 것이 특정 시간동안 지속되면) 알림이 slack의 특정 채널로 알림을 보내게 되는 구조

Pending : firing이 pending만큼 지속되면 Alert 발생

→ 한 번 pending이 발생하면 그 이후에는 pending시간 외에 설정된 시간 간격으로 Alert 발생한다.

# Set alert evaluation behavior

여러 가지 rule들이 동시에 평가되면 충돌이 발생할 수 있다.
따라서 rule들을 그룹화하고, 순차적으로 평가하고 평가 주기를 설정함으로서, 충돌을 방지하는 기능이다.

# pause evaluation
→ 더 이상 evaluate를 진행하지 않는다.

# Notification Policies

같은 그룹에 인스턴스가 여러개 있는 경우

repeat interval : 각각의 그룹에 개별적으로 적용되는 interval

ex) 그룹 1과 그룹 2가 있을때, repeat interval이 3분이면 그룹1은 그룹 1이 Alert된 후에 3분, 그룹 2는 그룹2가 Alert된 후에 3분 이런 식으로 따로 Alert가 보내진다.

group interval : 설정한 시간동안 해당 그룹은 추가 알림이 전송되지 않는다.

예를 들어, 그룹 1에서 인스턴스 1에서 알림이 발생되었고, group interval은 5분이라 하자. 이후에 그룹 1에서 인스턴스 1에서 알림이 발생하고 3분 후에 인스턴스 2에서 알림이 발생하려 하지만, group interval 5분이 지나지 않아, 해당 알림은 무시된다.(발생하지 않음)
→ 같은 그룹에서 알림이 발생하려면 group interval이 지난 후에야 알림이 발생 가능하다.