运维监控规则基线标准

2025-03-19 446 阅读4分钟

运维监控规则基线标准

1. 目标

建立统一的监控规则框架，确保系统可用性、性能及安全性。
实现故障快速发现、精准定位与高效处理。
满足合规性要求（如等保2.0、ISO 27001等）。

2. 适用范围

所有生产环境的基础设施（服务器、网络设备、存储等）
关键业务系统及中间件（数据库、消息队列、API服务等）
云原生环境（Kubernetes集群、容器、微服务等）

3. 监控对象与指标基线

3.1 基础设施监控

监控项	指标	告警阈值	采集频率
服务器CPU	使用率、负载（1/5/15分钟）	≥80%持续5分钟	1分钟
内存	使用率、Swap使用量	≥85% 或 Swap使用率≥30%	1分钟
磁盘	使用率、IOPS、读写延迟	≥90% 或 IO延迟≥100ms	5分钟
网络	带宽利用率、丢包率、TCP连接数	≥70% 或丢包率≥1%	1分钟

3.2 应用服务监控

组件类型	关键指标	告警条件
Web服务	HTTP状态码（4xx/5xx）、响应时间	5xx错误率≥1% 或 P99≥2s
数据库	连接数、慢查询、锁等待时间	连接数≥max_connections×80%
消息队列	积压消息数、消费延迟	积压量≥1000 或延迟≥5分钟
API服务	成功率、QPS、超时率	成功率≤99% 或超时率≥5%

3.3 特殊场景规则

云原生环境：
- Pod异常重启（24小时内≥3次）
- Node资源碎片化（可用CPU<0.5核或内存<1GB）
安全监控：
- 异常登录尝试（同一IP≥5次/分钟）
- 敏感文件修改（/etc/passwd、SSH密钥等）

4. 告警管理规则

4.1 告警分级标准

级别	定义	响应时效	通知方式
P0	核心业务不可用（如支付系统宕机）	≤5分钟	电话+短信+大屏红色警示
P1	重要功能降级（如API成功率下降）	≤15分钟	企业微信/钉钉+邮件
P2	潜在风险预警（如磁盘空间不足）	≤1小时	邮件+监控平台工单
P3	信息类通知（如定时任务完成）	无需响应	仅记录日志

4.2 告警抑制策略

防抖动规则：同一对象相同告警10分钟内只触发1次
依赖抑制：当底层基础设施（如网络）故障时，自动屏蔽关联应用告警
维护窗口：计划性维护期间暂停非紧急告警

5. 数据采集与存储

5.1 数据规范

指标命名遵循 <服务类型>.<组件>.<指标> 格式（例：mysql.master.connections_active）
所有指标必须包含维度标签（env=prod, region=ap-southeast等）

5.2 存储策略

数据类型	保留周期	存储要求
实时监控数据	30天	时序数据库（如Prometheus）
日志数据	180天	集中式日志系统（ELK）
审计数据	3年	只读存储+异地备份

6. 可视化与报告

6.1 仪表板规范

必须包含：
- 全局健康状态概览（红/黄/绿三色标识）
- Top 10资源消耗排名
- 业务SLA达成率趋势图
推荐工具：Grafana、Kibana

6.2 定期报告

日报：统计每日告警总数、MTTR（平均修复时间）
周报：TOP故障根因分析、规则优化建议
月报：资源利用率趋势、容量预测

7. 规则维护机制

7.1 变更流程

提交规则变更申请（含测试验证报告）
灰度发布至测试环境观察≥24小时
生产环境分批推送（先5%节点，逐步全量）

7.2 有效性验证

每月通过故障注入测试验证监控覆盖度
每季度审计无效告警（误报率需≤5%）

8. 附录

8.1 监控工具栈示例

基础设施监控：Prometheus + Node Exporter
日志监控：ELK（Elasticsearch, Logstash, Kibana）
APM：SkyWalking / New Relic
告警通知：AlertManager + 钉钉机器人

8.2 术语定义

MTTR：Mean Time To Repair（平均修复时间）
RTO：Recovery Time Objective（恢复时间目标）
SLA：Service Level Agreement（服务等级协议）

版本记录

版本	修订日期	修订说明
1.0	2025-3-18	初版发布

注：本基线需结合具体业务场景调整，建议每半年复审一次。