运维监控规则基线标准

267 阅读4分钟

运维监控规则基线标准

1. 目标

  • 建立统一的监控规则框架,确保系统可用性、性能及安全性。
  • 实现故障快速发现、精准定位与高效处理。
  • 满足合规性要求(如等保2.0、ISO 27001等)。

2. 适用范围

  • 所有生产环境的基础设施(服务器、网络设备、存储等)
  • 关键业务系统及中间件(数据库、消息队列、API服务等)
  • 云原生环境(Kubernetes集群、容器、微服务等)

3. 监控对象与指标基线

3.1 基础设施监控

监控项指标告警阈值采集频率
服务器CPU使用率、负载(1/5/15分钟)≥80%持续5分钟1分钟
内存使用率、Swap使用量≥85% 或 Swap使用率≥30%1分钟
磁盘使用率、IOPS、读写延迟≥90% 或 IO延迟≥100ms5分钟
网络带宽利用率、丢包率、TCP连接数≥70% 或 丢包率≥1%1分钟

3.2 应用服务监控

组件类型关键指标告警条件
Web服务HTTP状态码(4xx/5xx)、响应时间5xx错误率≥1% 或 P99≥2s
数据库连接数、慢查询、锁等待时间连接数≥max_connections×80%
消息队列积压消息数、消费延迟积压量≥1000 或 延迟≥5分钟
API服务成功率、QPS、超时率成功率≤99% 或 超时率≥5%

3.3 特殊场景规则

  • 云原生环境
    • Pod异常重启(24小时内≥3次)
    • Node资源碎片化(可用CPU<0.5核 或 内存<1GB)
  • 安全监控
    • 异常登录尝试(同一IP≥5次/分钟)
    • 敏感文件修改(/etc/passwd、SSH密钥等)

4. 告警管理规则

4.1 告警分级标准

级别定义响应时效通知方式
P0核心业务不可用(如支付系统宕机)≤5分钟电话+短信+大屏红色警示
P1重要功能降级(如API成功率下降)≤15分钟企业微信/钉钉+邮件
P2潜在风险预警(如磁盘空间不足)≤1小时邮件+监控平台工单
P3信息类通知(如定时任务完成)无需响应仅记录日志

4.2 告警抑制策略

  • 防抖动规则:同一对象相同告警10分钟内只触发1次
  • 依赖抑制:当底层基础设施(如网络)故障时,自动屏蔽关联应用告警
  • 维护窗口:计划性维护期间暂停非紧急告警

5. 数据采集与存储

5.1 数据规范

  • 指标命名遵循 <服务类型>.<组件>.<指标> 格式(例:mysql.master.connections_active
  • 所有指标必须包含维度标签(env=prod, region=ap-southeast等)

5.2 存储策略

数据类型保留周期存储要求
实时监控数据30天时序数据库(如Prometheus)
日志数据180天集中式日志系统(ELK)
审计数据3年只读存储+异地备份

6. 可视化与报告

6.1 仪表板规范

  • 必须包含:
    • 全局健康状态概览(红/黄/绿三色标识)
    • Top 10资源消耗排名
    • 业务SLA达成率趋势图
  • 推荐工具:Grafana、Kibana

6.2 定期报告

  • 日报:统计每日告警总数、MTTR(平均修复时间)
  • 周报:TOP故障根因分析、规则优化建议
  • 月报:资源利用率趋势、容量预测

7. 规则维护机制

7.1 变更流程

  1. 提交规则变更申请(含测试验证报告)
  2. 灰度发布至测试环境观察≥24小时
  3. 生产环境分批推送(先5%节点,逐步全量)

7.2 有效性验证

  • 每月通过故障注入测试验证监控覆盖度
  • 每季度审计无效告警(误报率需≤5%)

8. 附录

8.1 监控工具栈示例

  • 基础设施监控:Prometheus + Node Exporter
  • 日志监控:ELK(Elasticsearch, Logstash, Kibana)
  • APM:SkyWalking / New Relic
  • 告警通知:AlertManager + 钉钉机器人

8.2 术语定义

  • MTTR:Mean Time To Repair(平均修复时间)
  • RTO:Recovery Time Objective(恢复时间目标)
  • SLA:Service Level Agreement(服务等级协议)

版本记录

版本修订日期修订说明
1.02025-3-18初版发布

:本基线需结合具体业务场景调整,建议每半年复审一次。