这是我参与「第五届青训营 」伴学笔记创作活动的第 10 天
一、本堂课重点内容
- 微服务架构原理及特征
- 核心服务治理功能
- 字节跳动服务治理实践
二、详细知识点介绍
1. 微服务架构原理及特征
1.1 微服务架构介绍
1.1.1 演变历史
单体架构 --> 垂直应用架构 --> 分布式架构 --> SOA架构 --> 微服务架构
1.1.2 微服务架构概览
1.1.3 微服务架构核心要素
- 服务治理(服务注册发现、负载均衡、流量治理等)
- 可观测性(日志采集分析、监控打点、链路追踪、异常报警等)
- 安全(身份认证、审计、传输加密、黑产攻击等)
1.2 微服务架构原理及特征
1.2.1 基本概念
- 服务(service):一组具有相同逻辑的运行实体。
- 实例(instance):一个服务中,每个运行实体即为一个实例。
- 实例与进程的关系:实例与进程之间没有必然对应关系,可以一个实例可以对应一个或多个进程(反之不常见)。
- 集群(cluster):通常指服务内部的逻辑划分,包含多个实例。
- 常见的实例承载形式:进程、VM、k8s pod
- 有状态/无状态服务:服务的实例是否存储了可持久化的数据(例如磁盘文件)。
1.2.2 服务注册与发现
在代码层面,如何指定目标服务的地址(ip:port)?
client := grpc.NewClient("10.23.45.67:8080") // 只能连接一个服务的某个实例
- 硬编码:不现实,ip地址一旦发生变化,整个链路都可能崩溃
- DNS:本地DNS存在缓存,导致延时、负载均衡问题、不支持服务实例的探活检查、域名无法配置端口
解决思路:
- 新增一个统一的服务注册中心,用于存储服务名到服务实例的映射。
1.2.3 流量特征
- 统一网关入口
- 内网通信多采用RPC
- 网状调用链路
2. 核心服务治理功能
2.1 服务发布
- 定义:服务发布,即指让一个服务升级运行新代码的过程
- 服务发布的难点:
- 服务不可用
- 服务抖动
- 服务回滚
- 解决方案:
- 蓝绿部署:分蓝区和绿区,升级的时候切换为另一区。主要缺陷为两倍资源
- 灰度发布:一个个发布并测试,试探性。主要缺点为错误回滚
2.2 流量治理
在微服务架构下,我们可以基于地区、集群、实例、请求等维度,对端到端流量的路由路径进行精确控制.
2.3 负载均衡
负载均衡负责分配请求在每个上下游实例上的分布。
常见的LB策略:
- Round Robin
- Random
- Ring Hash
- Least Request
2.4 稳定性治理
- 问题:线上服务总是会出问题,这与程序正确性无关。(网络攻击,流量突增,端点,机器故障等)
- 措施:限流、熔断、过载保护、降级(优先级等)
3. 字节跳动服务治理实践
3.1 重试的意义
- 本地函数调用常见异常
- 问题:参数非法、OOM、NPE、边界case、系统崩溃、死循环、程序异常退出
- 远程函数调用常见异常
- 问题:网络抖动、下游机器宕机、本地机器负载高、调度超时、下游熔断限流
- 重试的意义
- 可以避免掉偶发的错误来降低错误率
- 降低长尾延时:对于偶尔耗时长的请求,重试有机会提前返回
- 容忍暂时性错误:某些时候系统会有暂时性异常(例如网络抖动),重试可以尽量规避。
- 避开下游故障实例:重试其他实例
3.2 重试的难点
- 幂等性
- 超时设置:时间设置是难点
- 重试风暴:无脑重试且链路过长导致下游极其重试次数过多
3.3 重试策略
- 限定重试比例阈值:设定一个重试比例阈值(例如1%),重试次数占所有请求比例不超过该阈值。
- 防止链路重试:链路层面的防重试风暴的核心是限制每层都发生重试,理想情况下只有最下一层发生重试。可以返回特殊的status表明“请求失败, 但别重试”。
- Hedged requests :对于可能超时(或延时高)的请求,重新向另一个下游实例发送一个相同的请求,并等待先到达的响应。
三、个人总结
微服务架构是当前大多数互联网公司的标准架构,因此了解微服务十分有必要。在本节课中,我学到了微服务架构的由来及原理、 服务治理功能是如何工作的,以及字节跳动在微服务架构稳定性治理中,对请求重试策略的探索及实践。