企业核心应用需要持续、稳定提供服务,监控就成为保驾护航关键手段。通过监控系统配置基础设施、中间件、应用日志和业务波动指标,开发人员可以及时检测指标健康状况,然后快速响应介入排查解决,从而提升用户体验,减少故障带来的损失。
01 监控维度
应用系统依赖基础资源、中间件、应用服务和容器建设,所以监控系统也是围绕这些组件进行采集监控,配置相关监控指标
02 监控指标
| 维度 | 内容 |
|---|---|
| 基础资源层 | CPU、内存、磁盘、网络(连接数、丢包率)、系统负载、中断次数 |
| 服务层 | 1. 数据库:QPS(每秒查询数)、TPS(每秒事务数)、连接数、慢查询率 2. 中间件:消息队列堆积量、缓存命中率 3. 应用服务:响应时间、吞吐量、JVM、错误率(状态码)、日志、线程数 |
| 业务层 | 用户活跃度(DAU/MAU)、订单成功率、API 调用量等(需结合具体业务场景定义) |
03 监控方法
针对应用系统监控手段,当下主流方法主要包括指标数值、指标波动和业务关联分析。指标数值法,也就是配置指标告警阈值,检测是否达到阈值就进行告警处理。指标波动法,就是通过周期对比、统计模型(正态分布、时间序列)、业务关联分析法分析异常告警阈值。
| 统计模型分析法 | 原理 |
|---|---|
| 周期对比 | 基于同比、环比和定基比检测周期(日、周、月或者年)指标数值变化 |
| 定基比 | 基于固定基期相比检测数值变化,用于长期趋势分析场合 |
| 正态分步法 | 基于历史均值、标准差检测 |
| 时间序列预测 | 使用Prophet、ARIMA模型预测理论值检测 |
| 业务关联分析法 | 根据业务场景交叉分析用户行为 |
3.1 同比
【百度百科】同比一般情况下是本年第n月与去年第n月比。同比发展速度主要是为了消除季节变动的影响,用以说明本期发展水平与同期发展水平对比而达到的相对发展速度。在实际工作中,经常使用这个指标,如某年、某季、某月与同期对比计算发展速度,就是同比发展速度。
3.2 环比
【百度百科】环比,统计学术语,是表示连续2个统计周期(比如连续两月)内数据变化比。
3.3 总结
环比侧重反映数据短期变化,用环比增长速度反映指标变化时,时效性强, 比较灵敏。比如,对居民消费价格指数(CPI)环比涨跌幅进行分析,可以判断短期内物价变化方向(上升或下降)。环比不足之处是,对一些随着季节变化而波动指标,将当期数据直接与上期相比时,容易受到季节因素的干扰, 使得用其反映的增长速度波动往往较大。
同比相对于环比,侧重反映长期趋势,能够一定程度上克服季节性波动影响。比如,“双十一”大促,使用同比增长速度,10 月、11 月、12 月波动不会像环比波动那样大,主要由于上年与今年11 月“双十一”促销因素均存在。但另一方面,同比增长速度缺点是易于受基期因素影响,比如,上年基期受灾害影响,数据波动大,而今年同期未受灾害影响,则同比增长速度会表现出波动变化。
04 波动监控方法
监控平台(kask)目前提供指标数值和指标波动监控支持,指标数值监控方法已配置投产,波动分析法目前仅支持同环比分析法监测监控指标是否异常。
4.1 业务监控(同环比)
| 维度 | 内容 |
|---|---|
| 比较方式 | 选项包括环比、时同比、日同比、周同比和月同比 |
| 告警方式 | 监控周期,周期只会告警一次,支持小时、天、周和月配置 |
| 采样最大时长 | 最大参与指标波动计算数据时长,支持小时、天、周和月配置 |
| 最小采样记录数 | 最小参与指标波动计算数据记录数,数据量少于此值不预警 |
| 最大采样记录数 | 最大参与指标波动计算数据记录数,等同于数据脚本limit |
| 上限类型 | 计算阈值上限的方式,支持百分比、绝对值 |
| 上限 | 指标告警阈值上限 |
| 下限类型 | 计算阈值下限的方式,支持百分比、绝对值 |
| 下限 | 指标告警阈值下限 |
4.2 日志监控(同环比)
| 维度 | 内容 |
|---|---|
| 比较方式 | 选项包括小时-环比、小时-同比、天-同比、周-同比和月-同比 |
| 超过阈值 | 计算阈值方式,支持百分比、绝对值 |
4.3 APM监控(同环比)
| 维度 | 内容 |
|---|---|
| 指标名称 | 服务平均响应时间、服务成功率、每分钟调用次数 接口平均响应时间、接口每分钟调用次数、接口成功率、接口每天调用次数 |
| 比较方式 | 选项包括小时-环比、小时-同比、天-同比、周-同比和月-同比 |
| 超过阈值 | 计算阈值方式,支持百分比、绝对值 |
05 总结与思考
应用系统监控核心价值在于防患于未然与快速定位恢复。无论是系统监控还是业务监控,需以数据为基石,结合自动化工具与流程优化,从被动响应转向主动预防。未来方向将聚焦于智能化、全链路可观测性及与业务目标的深度协同。