这是我参与「第五届青训营」伴学笔记创作活动的第 9 天

这里讲的主要是，微服务架构是当前大多数互联网公司的标准架构，本节课将重点讲解微服务架构背景由来及全貌，分析其基本原理及特征。治理实践是要和Service Mesh相关的昂！

微服务架构介绍

单体架构 -> 垂直应用架构 - 分布式架构 -> SOA架构 -> 微服务架构 -> ServiceMesh等架构......

单体架构

All in one

优点：
- 性能最高
- 冗余小
劣势：
- debug困难
- 模块相互影响
- 模块分工、开发流程

垂直应用架构

按照业务线，垂直划分

优点：
- 业务独立开发维护
劣势：
- 不同业务存在冗余
- 每个业务还是单体

分布式架构

抽出业务无关的公共模块

优点：
- 业务无关的独立服务
劣势：
- 公共服务模块bug可以导致全站瘫痪
- 调用关系复杂
- 不同服务冗余

SOA架构

Service Oriented Architecture

优势：
- 服务注册
劣势：
- 整个系统设计是中心化的
- 需要从上往下设计
- 重构困难

微服务架构

彻底的服务化

优点：
- 开发效率高
- 业务独立设计
- 自下而上
- 故障隔离
劣势：
- 治理，运维艰难
- 观测挑战
- 安全性
- 分布式系统

核心要素：

服务治理：
- 服务注册
- 服务发现
- 负载均衡
- 扩缩容
- 流量治理
- 稳定性治理
...
可观测性
- 日志采集
- 日志分析
- 监控大盘
- 监控打点
- 链路追踪
- 异常报警
...
安全
- 身份验证
- 认证授权
- 访问令牌
- 审计
- 传输加密
- 黑产攻击
...

微服务架构原理及特征

Service: 一组具有相同逻辑的运行实体
Instance: 一个服务中，每个运行实体即为一个实例
服务和实例的关系：没有必然关系，可以一个实例对应一个或多个线程
集群：服务内部的逻辑划分，包含多个实例
常见的实例承载形式：进程、VM、k8s pod......
有状态/无状态服务：服务的实例是否存储了可持久化的数据（例如磁盘文件）

基本概念

服务间通信：对于单体服务，不同模块通信只是简单的函数调用。对于微服务，服务间通信意味着网络传输。

服务注册与发现

如何指定一个目标服务的地址（ip:port）?

DNS可以吗？

问题：
- 本地DNS存在缓存，导致延时。
- 负载均衡问题。
- 不支持服务实例的探活检查。
- 域名无法配置端口。

解决思路：新增一个统一的服务注册中心，用于存储服务名到服务实例的映射。

服务上线以及下线的过程：

如果服务还有流量，下线会有bug昂！先从注册服务下线对应的实例3，等到实例3没有外界流量的时候，再下线就ok了昂！

上线反之，先拉起实例，然后测试一下，没有问题了，再去Service Registry中添加注册对应的实例，为实例引入流量昂！

流量特征

统一网关入口
内网通信多数采用RPC
网状调用链路

HTTP是文本协议，运行效率比较低。RPC效率高得多，内部都是RPC。

核心服务治理功能

服务发布

服务发布：让一个服务升级，运行新的代码的过程。

核心问题：在线服务，一直有流量啊orz。

服务发布难点：
- 服务不可用
- 服务抖动
- 服务回滚

难不成，你让用户承担这些问题？？？

发布方式：
- 蓝绿部署（需要的资源多昂，流量低的时候好用）
- 灰度发布/金丝雀发布（常用）

流量治理

流量控制：

流量控制的维度：
- 地区
- 集群
- 实例
- 请求

负载均衡

常见的LB策略：
- Round Robin
- Random
- Ring Hash
- Least Request

稳定性治理

线上服务总会出问题，和程序的正确性无关

常见问题：
- 网络控制
- 流量突增
- 机房断电
- 光纤被挖
- 机器故障
- 网络故障
- 机房空调故障
......

常见的功能：
- 限流
- 熔断
- 过载保护
- 降级

字节跳动服务治理实践

重试的意义

本地函数调用的异常：
- 参数非法
- OOM
- NPE
- 边界case
- 系统崩溃
- 死循环
- 异常退出

不用重试，肯定自己的代码有问题，再来也是一样的！

RPC：
- 网络抖动
- 下游负载过高
- 下游宕机
- 本地负载高，调度超时
- 下游熔断、限流

要重试，并且重试过后可能就好了昂！

重试可以避免偶发错误，提高（SLA，Service-Level Agreement）

意义：
- 降低错误率：假设单次请求的错误概率为0.01，那么连续两次错误概率则为0. 0001。
- 降低长尾延时：对于偶尔耗时较长的请求，重试请求有机会提前返回。
- 容忍暂时性错误：某些时候系统会有暂时性异常（例如网络抖动），重试可以尽量规避。
- 避开下游故障实例：一个服务中可能会有少量实例故障(例如机器故障),重试其他实例可以成功。

重试的难点

幂等性，重试风暴，超时设置

重试风暴：

调用链很长，每一层都重试三次，直接就风暴了哈哈哈哈，害！

解决方法？

重试风暴思路一：

只有在大部分成功的情况下，才能进行重试。

设定一个重试比例阈值（例如1%），重试次数占所有请求比例不得超过阈值。

重试风暴思路二：

链路层面防重试的核心是：限制每层都发生重试，理想情况只有最下一层发生重试。也许可以返回特殊的status表明“请求失败，但别重试”。

重试策略

Hedged Requests，对冲请求

对于可能超时（或者延时高）的请求，重新向另一个下游实例发送一个相同的请求，并等待先达到的响应。

重试效果验证

链路上发生的重试放大效应

微服务架构原理与治理实践 ｜ 青训营笔记

微服务架构介绍

单体架构

垂直应用架构

分布式架构

SOA架构

微服务架构

核心要素：

微服务架构原理及特征

基本概念

服务注册与发现

流量特征

核心服务治理功能

服务发布

流量治理

负载均衡

稳定性治理

字节跳动服务治理实践

重试的意义

重试的难点

重试策略

重试效果验证

微服务架构原理与治理实践｜青训营笔记