Google 的四个黄金指标
Google 的四个黄金指标着眼点在服务监控,这四个指标分别是延迟、流量、错误和饱和度。
- 延迟:服务请求所花费的时间,比如用户获取商品列表页面调用的某个接口,花费 30 毫秒。这个指标需要区分成功请求和失败请求,因为失败的请求可能会立刻返回,延迟很小,会扰乱正常的请求延迟数据。
- 流量:HTTP 服务的话就是每秒 HTTP 请求数,RPC 服务的话就是每秒 RPCCall 的数量,如果是数据库,可能用数据库系统的事务量来作为流量指标。
- 错误:请求失败的速率,即每秒有多少请求失败,比如 HTTP 请求返回了 500 错误码,说明这个请求是失败的,或者虽然返回的状态码是 200,但是返回的内容不符合预期,也认为是请求失败。
- 饱和度:描述应用程序有多“满”,或者描述受限的资源,比如 CPU 密集型应用,CPU 使用率就可以作为饱和度指标。
只要上述这些指标都是正常的,这个服务就是健康的。反之,如果这些指标有问题,服务就是不健康的,并且大概率已经影响了上游服务甚至终端用户。
RED 方法(Request)
- Rate:请求速率,每秒请求数。(Request)
- Errors:错误,每秒错误请求数。(Request)
- Duration:延迟,每个请求的延迟分布情况。
此文章为11月Day18学习笔记,内容来源于极客时间《运维监控系统实战笔记》,强烈推荐该课程