基于Prometheus的监控方案

2021-02-25 559 阅读1分钟

前言

前一段时间一直在做基于Prometheus的监控系统，距离第一期完成也有段时间了，一直想总结一下Prometheus+grafana作为监控系统在中台方向有什么通用性的点，但受限于能力，这一套系统很难三言两语讲清楚其中的亮点和痛点，只能分为以下几个模块慢慢阐述

整套技术方案

什么是Promethues
什么是Grafana
什么是PushgateWay
什么是AlertManager
什么是Supervisor

常见问题总结

常见组件计算的PromQL

一、整套技术方案

Prometheus

什么是探针
- 常见探针列表
- 没有现成的探针怎么办
如何自动配置Prometheus监控target？
要是我的监控挂了怎么办？
- 双监控方案
- 监控探活

Grafana

痛点
- label_values中的变量时效性问题
- 我有一批机器的指标，如何根据机器的功能分类展示？
  - 通过变量分类
    - Grafana变量自动配置解决方案
- 更新了grafana图表后，保存到哪里了？

PushgateWay

痛点
- 多点上报同一Job造成grafana图像断点问题
- 任务挂了一直是最后时刻数据问题（假数据）

AlertManager

常用告警配置项

Supervisor

如何将服务配置到Supervisor管理

二、常见问题总结

三、常见组件的计算PromQL

XMind - Trial Version