grafana alert

46 阅读1分钟

grafana 设置告警:

1, 设置规则名字。

截屏2024-09-25 上午11.53.35.png

2,定义 prometheus 查询。

grafana 对原生 prometheus 的兼容太好了。

点击 metric 自动的搜索 mertic name(带注释)。

提供对 label 进行 filter 的按钮。

截屏2024-09-25 上午11.54.40.png

可以设置 reduce 界面对查询获取最大最小值等等。 或者设置 thershold 也行,然后设置为 alert 规则。

截屏2024-09-25 上午11.57.42.png

3, 配置通知频率。 这里可以定义检查频率。

no data 是否 alert 等情况。

截屏2024-09-25 下午12.02.08.png

第四。设置通知渠道。

截屏2024-09-25 下午12.03.53.png

demo

grafana 的 alert 默认是恢复也发送告警。

如果有多个同时触发的话,其实是 simple alert。

每一个都发送一条信息,对应的有 mute 链接,以及数据源看板链接。

截屏2024-09-25 下午12.05.02.png

优化

1, 把 silence 链接改造成按钮。

2, 把 rule folder 的概念移除。

3, 一些基础的磁盘规则,支持按应用级别去管理告警条件,做好权限隔离。

4,最好能把人的纬度加上去,比如知道目前一条告警某个人认领了,那么谁在处理呢。

其实 3 的功能用 grafana 也不是不行。

  • 比如一个人创建了应用,那么我们按照模版自动的给它生成一系列的规则,比如 disk_type{app_name="xxxx"} 然后去应用规则。这个的问题可能在于,会有太多 app_name 级别的小查询进入 prometheus。