前言
前一段时间一直在做基于Prometheus的监控系统,距离第一期完成也有段时间了,一直想总结一下Prometheus+grafana作为监控系统在中台方向有什么通用性的点,但受限于能力,这一套系统很难三言两语讲清楚其中的亮点和痛点,只能分为以下几个模块慢慢阐述
整套技术方案
- 什么是Promethues
- 什么是Grafana
- 什么是PushgateWay
- 什么是AlertManager
- 什么是Supervisor
常见问题总结
常见组件计算的PromQL
一、整套技术方案
Prometheus
-
什么是探针
- 常见探针列表
- 没有现成的探针怎么办
-
如何自动配置Prometheus监控target?
-
要是我的监控挂了怎么办?
- 双监控方案
- 监控探活
Grafana
-
痛点
-
label_values中的变量时效性问题
-
我有一批机器的指标,如何根据机器的功能分类展示?
-
通过变量分类
- Grafana变量自动配置解决方案
-
-
更新了grafana图表后,保存到哪里了?
-
PushgateWay
-
痛点
- 多点上报同一Job造成grafana图像断点问题
- 任务挂了一直是最后时刻数据问题(假数据)
AlertManager
- 常用告警配置项
Supervisor
- 如何将服务配置到Supervisor管理
二、常见问题总结
三、常见组件的计算PromQL
XMind - Trial Version