一、核心原则
监控频率 =「风险等级 + 优化阶段」匹配,核心目标:及时发现性能回退,避免业务影响,同时不增加过多监控开销。
二、分阶段监控评估频率
1. 优化实施后(短期验证:0-7 天)
-
核心目的:确认优化是否生效,无突发问题
-
监控频率:
-
关键指标(QPS、慢查询、连接数):每 1 小时查看 1 次
-
资源占用(CPU / 内存 / IO):每 2 小时查看 1 次
-
业务 SQL 响应时间:每天抽样测试 1 次(覆盖核心查询 / 写入)
-
-
评估动作:优化后 24 小时、72 小时各做 1 次 “前后对比”(参考之前的优化验证方法)
2. 稳定运行期(中期维护:7 天 - 3 个月)
-
核心目的:确保性能稳定,无缓慢退化
-
监控频率:
-
关键指标:每天查看 1 次(可通过工具自动汇总)
-
慢查询日志:每天分析 1 次(重点看新增慢查询)
-
资源占用:每周查看 2 次(Linux
top/iostat或可视化工具)
-
-
评估动作:每月做 1 次全面性能复盘(对比优化基准数据)
3. 长期运行期(长期监控:3 个月以上)
-
核心目的:应对业务增长 / 数据量变化,及时调整优化策略
-
监控频率:
-
关键指标:每周查看 2 次(或依赖工具告警,无需手动查)
-
慢查询 + 索引使用情况:每 2 周分析 1 次
-
分库分表 / 读写分离场景:每月检查 1 次数据同步状态
-
-
评估动作:每季度做 1 次压力测试(sysbench),验证性能上限
4. 特殊场景(高频监控)
-
业务高峰期(如电商大促、活动日):
-
实时监控(每 5-10 分钟查看 1 次关键指标)
-
慢查询实时告警(工具触发通知)
-
-
数据量快速增长(单表月增超 100 万行):
-
每周查看 1 次表碎片、索引效率
-
每月评估是否需要扩容 / 分表
-
三、工具自动化建议
-
简单场景:用
crontab定时执行指标采集脚本(每天 1 次),输出汇总报告 -
生产场景:Prometheus+Grafana 配置告警规则(如慢查询突增、缓存命中率触发通知),无需手动高频查看