微服务框架-不变的基建 | 青训营笔记

120 阅读9分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 9 天

本堂课重点内容:

  • 微服务架构介绍

    • 微服务架构的背景由来、架构概览、基本要素
  • 微服务架构原理及特征

    • 微服务架构的基本组件、工作原理、流量特征
  • 核心服务治理功能

    • 核心的服务治理功能,包括流量治理、服务均衡、稳定性治理
  • 字节跳动服务治理实践

    • 字节跳动在微服务架构稳定性治理中,对请求重试策略的探索及实践

1.微服务架构介绍

微服务架构是当前大多数互联网公司的标准架构。

1.1 系统架构演变历史

为什么系统架构需要演进?

  • 互联网的爆炸性发展
  • 硬件设施的快速发展
  • 需求复杂性的多样化
  • 开发人员的急剧增加
  • 计算机理论及技术的发展

image-20230204111608964.png

1.1.1 单体架构

  • All in one process

image-20230204112648323.png

优势劣势
1.性能最高1. debug 困难
2.冗余小2.模块相互影响
3.模块分工、开发流程

1.1.2 垂直应用架构

  • 按照业务线垂直划分

image-20230204113017905.png

优势劣势
1.业务独立开发维护1.不同业务存在冗余
2.每个业务还是单体

1.1.3 分布式架构

  • 抽出与业务无关的公共模块

image-20230204113433704.png

优势劣势
1.业务无关的独立服务1.服务模块 bug 可导致全站瘫痪
2.调用关系复杂
3.不同服务冗余

1.1.4 SOA架构(Service Oriented Architecture)

  • 面向服务

image-20230204113827404.png

优势劣势
1.服务注册1.整个系统设计是中心化的
2.需要从上至下设计
3.重构困难

1.1.5 微服务架构

  • 彻底的服务化

image-20230204114114278.png

优势劣势
1.开发效率1.治理、运维难度
2.业务独立设计2.观测挑战
3.自下而上3.安全性
4.故障隔离4.分布式系统

1.2 微服务架构整体概览

image-20230204114504352.png

  • 网关
  • 服务配置和治理
  • 链路追踪和监控

1.3 微服务架构的三大要素

服务治理(本课程内容)可观测性安全
服务注册日志采集身份验证
服务发现日志分析认证授权
负载均衡监控打点访问令牌
扩缩容监控大盘审计
流量治理异常报警传输加密
稳定性治理链路追踪黑产攻击

2.微服务架构原理及特征

2.1 微服务架构中的基本概念及组件

概念描述
服务 (service)一组具有相同逻辑的运行实体
实例 (instance)一个服务中的每个运行实体
实例与进程的关系没有必然对应关系,一般一对一或者一对多
集群 (cluster)通常指服务内部的逻辑划分,包含多个实例
常见的实例承载形式进程、VM、k8s pod......
有状态/无状态服务服务的实例是否存储了可持久化的数据(例如磁盘文件)

image-20230204114937087.png 如果把 HDFS 看做一组微服务

image-20230204120131755.png

2.2 服务间通信

对于单体服务,不同模块通信只是简单的函数调用。 对于微服务,服务间通信意味着网络传输

  • 微服务之间通过网络进行通信
  • 常见的通信协议包括 HTTP、RPC

image-20230204120402925.png

2.3 服务注册及服务发现

2.3.1 基本问题

服务间调用中,如何指定下游服务实例的地址?

对于网络通信功能(不管http还是rpc),我们知道是需要指定远程的 ip port 的。

既然服务之间存在通信关系,在实际代码层面,我们如何指定调用一个目标服务的地址(ip:port)?

2.3.2 直接指定 ip:port

hardcode 的方式指定下游实例地址有什么问题?

  • 没有任何动态能力
  • 有多个实例下游实例怎么办?
// Service A wants to call service B.
client := grpc.NewClient("10.23.45.67:8080")
  1. 服务有多个实例,没法 hardcode (记住一个服务的所有实例部是运行同一份代码)
  2. 服务实例 ip 地址不可能写死,它会动态变化

image-20230204121046677.png

2.3.3 使用 DNS

DNS 的思想:中间层

存在的问题:

  • 本地 DNS 存在缓存,导致延迟
  • DNS 没有负载均衡
  • 不支持服务探活检查
  • DNS 不能指定端口

image-20230204121540558.png

2.3.4 服务注册发现

与 DNS 类似,需要引入一个中间层

解决思路:新增一个统一的服务注册中心,用于存储服务名到服务实例之间的映射关系

image-20230204134914229.png 服务实例上线及下线过程

image-20230204135201812.png

  • 旧服务实例下线前,从服务注册中心删除该实例,下线流量

不能直接下线,因为还有流量

image-20230204135817536.png

  • 新服务实例上线后,在服务注册中心注册该实例,上线流量

image-20230204140251458.png

image-20230204140504972.png

2.4 微服务流量特征

  • 统一网关入口
  • 外网通信多数采用 HTTP,内网通信多数采用 RPC(Thrift, gRPC)
  • 网状调用链路

image-20230204140713638.png

弱化连接的概念,强调“请求”

即同一个客户端长连接发出的请求,理论上可以到达服务中所有实例

API gateway可以用作身份认证,进而将token附在请求上

2.5 总结

  • 微服务架构中的基本组件及术语
  • 服务注册及发现
  • 无损的服务实例上下线流程
  • 微服务架构中的基本流量特征

3.核心服务治理功能

3.1 服务发布(deployment)

  • 何为服务发布

    • 让一个服务升级运行新的代码的过程

3.1.1 服务发布难点

  • 服务不可用
  • 服务抖动
  • 服务回滚

image-20230204142308902.png

3.1.2 蓝绿部署

  • 将服务分成两个部分,分别先后发布
  • 简单、稳定
  • 但需要两倍资源

image-20230204143214128.png

image-20230204143830824.png

适合在流量低峰时采用

3.1.3 灰度发布(金丝雀发布)

金丝雀 (canary) 对瓦斯及其敏感,17世纪时,英国旷工在下井前会先放入一只金丝雀,以确保矿井中没有瓦斯。

  • 先发布少部分实例,接着逐步增加发布比例
  • 不需要增加资源
  • 回滚难度大,基础设施要求高

image-20230204144335480.png

3.2 流量治理

  • 流量控制

    • 在微服务架构中,可以从各个维度对端到端的流量在链路上进行精确控制

这里指狭义的对流量进行控制

  • 控制维度

    • 地区维度
    • 集群维度
    • 实例维度
    • 请求维度

image-20230204144619419.png

3.3 负载均衡(Load Balance)

最基本的问题,一个服务中,通常每个实例的负载应当是大体均衡一致的

负载均衡负责分配请求在每个下游实例上的分布。

常见的LB策略:

  • Round Robin
  • Random
  • Ring Hash
  • Least Request

image-20230204145326919.png

3.4 稳定性治理

线上服务总是会出问题的,这与程序的正确性无关。

网络攻击、流量突增、机房断电、光纤被挖、机器故障、网络故障、机房空调做障等等。

微服务架构中典型的稳定性治理功能:

  • 限流

    • 限制服务处理的最大 QPS,拒绝过多请求
  • 熔断

    • 中断请求路径,增加冷却时间从而让故障实例尝试恢复
  • 过载保护

    • 在负载高的实例中,主动拒绝一部分请求,防止实例被打挂
  • 降级

    • 服务处理能力不足时,拒绝低级别的请求,只响应线上高优请求

image-20230204150816802.png

3.5 总结

  • 服务发布:蓝绿部署、灰度发布
  • 基于地区、集群、实例、请求等维度的流量治理功能
  • 几种常见的负载均衡策略
  • 微服务架构中的稳定性治理功能

4.字节跳动服务治理实践

我们以重试功能为例,介绍字节跳动在这方面的实践

4.1 请求重试的意义

4.1.1 本地函数调用

可能有哪些异常:

参数非法、OOM(Out Of Memory)、NPE(Null Pointer Exception)、边界case、系统崩溃、死循环、程序异常退出等等。

image-20230204151739879.png

  • 通常没有重试意义

4.1.2 远程函数调用

  • 可能有哪些异常:

网络抖动、下游负载高导致超时、下游机器宕机、本地机器负载高、调度超时、下游熔断、限流等等

image-20230204152116680.png

  • 重试是有意义的,可以避免偶发性的错误,提高 SLA (Service-Level Agreement)

image-20230204152411304.png

4.1.3 重试的意义

意义描述
降低错误率假设单次请求的错误概率为 0.01,那么连续两次错误概率则为 0.0001。
降低长尾延时对于偶尔耗时较长的请求,重试请求有机会提前返回
容忍暂时性错误某些时候系统会有暂时性异常(例如网络抖动),重试可以尽量规避。
避开下游故障实例一个服务中可能会有少量实例故障(例如机器故障),重试其他实例可以成功。

4.2 请求重试的难点

既然重试这么多好处,为什么默认不用呢?

4.2.1 幂等性

即多次请求可能会造成数据不一致

  • POST 请求可以重试吗?

4.2.2 重试风暴

随着调用深度的增加,重试次数会指数级上升

假设我们使用简单的 for 循环,循环 3 次进行重试:

image-20230204153559393.png

4.2.3 超时设置

假设调用时间一共1s,经过多少时间开始重试?

4.3 重试策略

4.3.1 限制重试比例

  • 设定一个重试比例阈值(例如 1%),重试次数占所有请求比例不超过该阈值

重试只有在大部分请求都成功,只有少量请求失败时,才有必要。

如果大部分请求都失败,重试只会加剧问题严重性。

因此,可以定义,比如重试次数不超过血正常成功请求次数的1%

image-20230204154053198.png

4.3.2 防止链路重试

链路层面的防重试风暴的核心是限制每层都发生重试,理想情况下只有最下一层发生重试,

  • 返回特殊的 status code,表示“请求失败,但别重试”

image-20230204154202041.png

缺点:对业务代码有侵入性

4.3.3 Hedged Requests(对冲的请求)

  • 对于可能超时(或延时高)的请求,重新向另一个下游实例发送一个相同的请求,并等待先到达的响应

image-20230204154454478.png

4.4 重试效果验证

  • 字节跳动重试组件能够极大限制重试发生的链路放大效应

实际验证经过上述重试策略后,在链路上发生的重试放大效应。

image-20230204154722351.png

4.5 总结

  • 重试的意义及难点
  • 应对重试风暴的策略

课后

  1. 结合 CAP 等原理,思考微服务架构有哪些缺陷?
  2. 微服务是否拆分得越“微”越好?为什么?
  3. Service Mesh 这一架构是为了解决微服务架构的什么问题?
  4. 有没有可能有这样一种架构,从开发上线运维体验上是微服务,但实际运行又类似单体服务?。

个人总结

  • 形成微服务架构的原因
  • 微服务架构的组成和各组件发挥的作用
  • 对微服务的治理的一些方案
  • 针对微服务下的服务治理之一 :请求重试

参考引用

后端专场 学习资料四 - 课程一:微服务框架 - 不变的基建