高并发系统学习 Day5 服务端监控监控指标如何选择：有一些成熟的理论和套路你可以直接拿来使用。比如，谷歌针对分布式

监控指标如何选择：
有一些成熟的理论和套路你可以直接拿来使用。比如，谷歌针对分布式系统监控的经验总结，四个黄金信号。
它指的是在服务层面一般需要监控四个指标，分别是延迟、通信量、错误和饱和度。
延迟指的是请求的响应时间。比如接口的响应时间、访问数据库和缓存的响应时间。
通信量可以理解为吞吐量，也就是单位时间内请求量的大小。比如访问第三方服务的请求量，访问消息队列的请求量。
错误表示当前系统发生的错误数量。这里需要注意的是， 我们需要监控的错误既有显式的，比如在监控 Web 服务时，出现 4 * * 和 5 * * 的响应码；也有隐式的，比如 Web 服务虽然返回的响应码是 200，但是却发生了一些和业务相关的错误（出现了数组越界的异常或者空指针异常等），这些都是错误的范畴。
饱和度指的是服务或者资源到达上限的程度（也可以说是服务或者资源的利用率），比如 CPU 的使用率、内存使用率、磁盘使用率、缓存数据库的连接数等等。

还可以借鉴 RED 指标体系。这个体系是从四个黄金信号中衍生出来的，其中，R 代表请求量（Request rate）、E 代表错误（Error）、D 代表响应时间（Duration），少了饱和度的指标。你可以把它当作一种简化版的通用监控指标体系。

此文章为6月Day5学习笔记，内容来源于极客时间《高并发系统设计 40 问》