高并发系统学习 Day5 服务端监控

144 阅读2分钟
监控指标如何选择:
有一些成熟的理论和套路你可以直接拿来使用。比如,谷歌针对分布式系统监控的经验总结,四个黄金信号。
它指的是在服务层面一般需要监控四个指标,分别是延迟、通信量、错误和饱和度。
延迟指的是请求的响应时间。比如接口的响应时间、访问数据库和缓存的响应时间。
通信量可以理解为吞吐量,也就是单位时间内请求量的大小。比如访问第三方服务的请求量,访问消息队列的请求量。
错误表示当前系统发生的错误数量。这里需要注意的是, 我们需要监控的错误既有显式的,比如在监控 Web 服务时,出现 4 * * 和 5 * * 的响应码;也有隐式的,比如 Web 服务虽然返回的响应码是 200,但是却发生了一些和业务相关的错误(出现了数组越界的异常或者空指针异常等),这些都是错误的范畴。
饱和度指的是服务或者资源到达上限的程度(也可以说是服务或者资源的利用率),比如 CPU 的使用率、内存使用率、磁盘使用率、缓存数据库的连接数等等。

还可以借鉴 RED 指标体系。这个体系是从四个黄金信号中衍生出来的,其中,R 代表请求量(Request rate)、E 代表错误(Error)、D 代表响应时间(Duration),少了饱和度的指标。你可以把它当作一种简化版的通用监控指标体系。

image.png

此文章为6月Day5学习笔记,内容来源于极客时间《高并发系统设计 40 问》