基于Prometheus的监控方案

559 阅读1分钟

前言

前一段时间一直在做基于Prometheus的监控系统,距离第一期完成也有段时间了,一直想总结一下Prometheus+grafana作为监控系统在中台方向有什么通用性的点,但受限于能力,这一套系统很难三言两语讲清楚其中的亮点和痛点,只能分为以下几个模块慢慢阐述

整套技术方案

  • 什么是Promethues
  • 什么是Grafana
  • 什么是PushgateWay
  • 什么是AlertManager
  • 什么是Supervisor

常见问题总结

常见组件计算的PromQL

一、整套技术方案

Prometheus

  • 什么是探针

    • 常见探针列表
    • 没有现成的探针怎么办
  • 如何自动配置Prometheus监控target?

  • 要是我的监控挂了怎么办?

    • 双监控方案
    • 监控探活

Grafana

  • 痛点

    • label_values中的变量时效性问题

    • 我有一批机器的指标,如何根据机器的功能分类展示?

      • 通过变量分类

        • Grafana变量自动配置解决方案
    • 更新了grafana图表后,保存到哪里了?

PushgateWay

  • 痛点

    • 多点上报同一Job造成grafana图像断点问题
    • 任务挂了一直是最后时刻数据问题(假数据)

AlertManager

  • 常用告警配置项

Supervisor

  • 如何将服务配置到Supervisor管理

二、常见问题总结

三、常见组件的计算PromQL

XMind - Trial Version