这是我参与「第五届青训营」伴学笔记创作活动的第 12 天

一、本节课重点内容

1. 核心服务治理功能

2. 服务治理实践

二、详细知识点介绍

1. 服务发布

定义

指让一个服务升级运行新的代码的过程

服务发布难点

服务不可用

服务抖动

服务回滚

蓝绿部署

简单稳定、但是需要两倍的资源

灰度发布（金丝雀发布）

回滚难度大，基础设施要求不高

微服务架构

彻底的服务化
优势：开发效率、业务独立设计、自下而上、故障隔离
劣势：治理、运维难度、观测挑战、安全性、分布式系统

2. 流量治理

在微服务架构下，我们可以基于地区、集群、实例、请求等维度，对端到端流量的路由路径进行精确控制。

3. 负载均衡

负载均衡(Load Balance)负责分配请求在每个下游实例上的分布。

常见的LB策略

Round Robin
Random
Ring Hash
Least Request
.....

4. 稳定性治理

线上服务总是会出问题的，这与程序的正确性无关

网络攻击
流量突增
机房断电
光纤被挖
机器故障
网络故障
机房空调故障
.....

微服务架构中典型的稳定性治理功能

限流

熔断

过载保护

降级

5. 重试的意义

本地函数调用可能出现的异常

参数非法
OOM (Out Of Memory)
NPE (Null Pointer Exception)
边界case
系统崩溃
死循环
程序异常退出

远程函数调用可能出现的异常

网络抖动
下游负载高导致超时
下游机器宕机
本地机器负载高，调度超时
下游熔断、限流

重试的意义

重试可以避免掉偶发的错误，提高SLA (Service-Level Agreement)

降低错误率：假设单次请求的错误概率为0.01，那么连续两次错误概率则为0.0001.
降低长尾延时：对于偶尔耗时较长的请求,重试请求有机会提前返回。
容忍暂时性错误：某些时候系统会有暂时性异常（例如网络抖动），重试可以尽量规避。
避开下游故障实例：一个服务中可能会有少量实例故障（例如机器故障)，重试其他实例可以成功。

6. 重试的难点

幂等性:多次请求可能会造成数据不一致
重试风暴:随着调用深度的增加，重试次数会指数级上涨（稍后分析)
超时设置:假设一个调用正常是1s的超时时间，如果允许一次重试，那么第一次请求经过多少时间时，才开始重试呢?

7. 重试策略

限制重试比例

设定一个重试比例阈值（例如1%），重试次数占所有请求比例不超过该阈值。

防止链路重试

链路层面的防重试风暴的核心是限制每层都发生重试，理想情况下只有最下一层发生重试。可以返回特殊的status表明"请求失败,但别重试”。

Hedged requests

对于可能超时(或延时高）的请求，重新向另一个下游实例发送一个相同的请求，并等待先到达的响应。

微服务框架（二） | 青训营笔记