Sentinel 熔断降级

281 阅读4分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第21天,点击查看活动详情

1 简介

对调用链路中不稳定的资源进行熔断降级是保障高可用的重要措施之一

现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。当其中某个环节出现问题时,在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。

也就是说,当链路中某个环节出现问题的时候,合理的切断服务链接,阻止问题继续扩大,保护整体服务正常运行。

2 熔断策略

Sentinel 提供了以下几种熔断策略:

2.1 慢调用比例

SLOW_REQUEST_RATIO

选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。

image.png 也就是我们设定一个最大响应时间(最大RT),超过这个时间的都视为慢查询。再给定一个时间窗口(统计时长),即一个时间区间。当这个时间内,慢查询的数量超过我们设置的值(最小请求数),并且慢查询的占比超过了比例阈值,那么就在一段时间(熔断时长)内对对应资源进行熔断。

总结以下就是熔断需要满足3个条件

  1. 一部分或者所有请求响应时间超过最大RT
  2. 统计时长内慢查询的数量超过最小请求数
  3. 统计时长内慢查询的数量占比超过比例阈值

经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。

2.2 异常比例

ERROR_RATIO

当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。

image.png

这个相对简单,需要满足两个条件就会被熔断

  1. 统计时长内请求数大于最小请求数
  2. 发生异常的请求数占比超过比例阈值

经过熔断时长后熔断器也会进入探测恢复状态(HALF-OPEN 状态)

2.3 异常数

ERROR_COUNT

当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器也会进入探测恢复状态(HALF-OPEN 状态)。

image.png 这个只需满足一个条件即可:

  1. 统计时长内的异常数超过最小请求数

Sentinel在1.8.0版本对熔断降级做了大的调整,可以定义任意时长的熔断时间,引入了半开启恢复支持。下面梳理下相关特性。

熔断状态有三种状态,分别为OPEN、HALF_OPEN、CLOSED

状态说明
OPEN表示熔断开启,拒绝所有请求
HALF_OPEN探测恢复状态,如果接下来的一个请求顺利通过则表示结束熔断,否则继续熔断
CLOSE表示熔断关闭,请求顺利通过

3 熔断规则

熔断降级规则包含下面几个重要的属性:

Field说明默认值
resource资源名,即规则的作用对象
grade熔断策略,支持慢调用比例/异常比例/异常数策略慢调用比例
count慢调用比例模式下为慢调用临界 RT(超出该值计为慢调用);异常比例/异常数模式下为对应的阈值
timeWindow熔断时长,单位为 s
minRequestAmount熔断触发的最小请求数,请求数小于该值时即使异常比率超出阈值也不会熔断(1.7.0 引入)5
statIntervalMs统计时长(单位为 ms),如 60*1000 代表分钟级(1.8.0 引入)1000 ms
slowRatioThreshold慢调用比例阈值,仅慢调用比例模式有效(1.8.0 引入)