grafana 设置告警:
1, 设置规则名字。
2,定义 prometheus 查询。
grafana 对原生 prometheus 的兼容太好了。
点击 metric 自动的搜索 mertic name(带注释)。
提供对 label 进行 filter 的按钮。
可以设置 reduce 界面对查询获取最大最小值等等。 或者设置 thershold 也行,然后设置为 alert 规则。
3, 配置通知频率。 这里可以定义检查频率。
no data 是否 alert 等情况。
第四。设置通知渠道。
demo
grafana 的 alert 默认是恢复也发送告警。
如果有多个同时触发的话,其实是 simple alert。
每一个都发送一条信息,对应的有 mute 链接,以及数据源看板链接。
优化
1, 把 silence 链接改造成按钮。
2, 把 rule folder 的概念移除。
3, 一些基础的磁盘规则,支持按应用级别去管理告警条件,做好权限隔离。
4,最好能把人的纬度加上去,比如知道目前一条告警某个人认领了,那么谁在处理呢。
其实 3 的功能用 grafana 也不是不行。
- 比如一个人创建了应用,那么我们按照模版自动的给它生成一系列的规则,比如 disk_type{app_name="xxxx"} 然后去应用规则。这个的问题可能在于,会有太多 app_name 级别的小查询进入 prometheus。