运维监控规则基线标准
1. 目标
- 建立统一的监控规则框架,确保系统可用性、性能及安全性。
- 实现故障快速发现、精准定位与高效处理。
- 满足合规性要求(如等保2.0、ISO 27001等)。
2. 适用范围
- 所有生产环境的基础设施(服务器、网络设备、存储等)
- 关键业务系统及中间件(数据库、消息队列、API服务等)
- 云原生环境(Kubernetes集群、容器、微服务等)
3. 监控对象与指标基线
3.1 基础设施监控
| 监控项 | 指标 | 告警阈值 | 采集频率 |
|---|
| 服务器CPU | 使用率、负载(1/5/15分钟) | ≥80%持续5分钟 | 1分钟 |
| 内存 | 使用率、Swap使用量 | ≥85% 或 Swap使用率≥30% | 1分钟 |
| 磁盘 | 使用率、IOPS、读写延迟 | ≥90% 或 IO延迟≥100ms | 5分钟 |
| 网络 | 带宽利用率、丢包率、TCP连接数 | ≥70% 或 丢包率≥1% | 1分钟 |
3.2 应用服务监控
| 组件类型 | 关键指标 | 告警条件 |
|---|
| Web服务 | HTTP状态码(4xx/5xx)、响应时间 | 5xx错误率≥1% 或 P99≥2s |
| 数据库 | 连接数、慢查询、锁等待时间 | 连接数≥max_connections×80% |
| 消息队列 | 积压消息数、消费延迟 | 积压量≥1000 或 延迟≥5分钟 |
| API服务 | 成功率、QPS、超时率 | 成功率≤99% 或 超时率≥5% |
3.3 特殊场景规则
- 云原生环境:
- Pod异常重启(24小时内≥3次)
- Node资源碎片化(可用CPU<0.5核 或 内存<1GB)
- 安全监控:
- 异常登录尝试(同一IP≥5次/分钟)
- 敏感文件修改(/etc/passwd、SSH密钥等)
4. 告警管理规则
4.1 告警分级标准
| 级别 | 定义 | 响应时效 | 通知方式 |
|---|
| P0 | 核心业务不可用(如支付系统宕机) | ≤5分钟 | 电话+短信+大屏红色警示 |
| P1 | 重要功能降级(如API成功率下降) | ≤15分钟 | 企业微信/钉钉+邮件 |
| P2 | 潜在风险预警(如磁盘空间不足) | ≤1小时 | 邮件+监控平台工单 |
| P3 | 信息类通知(如定时任务完成) | 无需响应 | 仅记录日志 |
4.2 告警抑制策略
- 防抖动规则:同一对象相同告警10分钟内只触发1次
- 依赖抑制:当底层基础设施(如网络)故障时,自动屏蔽关联应用告警
- 维护窗口:计划性维护期间暂停非紧急告警
5. 数据采集与存储
5.1 数据规范
- 指标命名遵循
<服务类型>.<组件>.<指标> 格式(例:mysql.master.connections_active)
- 所有指标必须包含维度标签(env=prod, region=ap-southeast等)
5.2 存储策略
| 数据类型 | 保留周期 | 存储要求 |
|---|
| 实时监控数据 | 30天 | 时序数据库(如Prometheus) |
| 日志数据 | 180天 | 集中式日志系统(ELK) |
| 审计数据 | 3年 | 只读存储+异地备份 |
6. 可视化与报告
6.1 仪表板规范
- 必须包含:
- 全局健康状态概览(红/黄/绿三色标识)
- Top 10资源消耗排名
- 业务SLA达成率趋势图
- 推荐工具:Grafana、Kibana
6.2 定期报告
- 日报:统计每日告警总数、MTTR(平均修复时间)
- 周报:TOP故障根因分析、规则优化建议
- 月报:资源利用率趋势、容量预测
7. 规则维护机制
7.1 变更流程
- 提交规则变更申请(含测试验证报告)
- 灰度发布至测试环境观察≥24小时
- 生产环境分批推送(先5%节点,逐步全量)
7.2 有效性验证
- 每月通过故障注入测试验证监控覆盖度
- 每季度审计无效告警(误报率需≤5%)
8. 附录
8.1 监控工具栈示例
- 基础设施监控:Prometheus + Node Exporter
- 日志监控:ELK(Elasticsearch, Logstash, Kibana)
- APM:SkyWalking / New Relic
- 告警通知:AlertManager + 钉钉机器人
8.2 术语定义
- MTTR:Mean Time To Repair(平均修复时间)
- RTO:Recovery Time Objective(恢复时间目标)
- SLA:Service Level Agreement(服务等级协议)
版本记录
| 版本 | 修订日期 | 修订说明 |
|---|
| 1.0 | 2025-3-18 | 初版发布 |
注:本基线需结合具体业务场景调整,建议每半年复审一次。