这是我参与「第五届青训营」伴学笔记创作活动的第 8 天,今天学习的内容是关于企业级后端架构剖析、后端架构实战,根据课程内容整理学习笔记如下。
6.3 企业级后端架构的挑战
6.3.1 挑战
基础设施层面:
-
物理资源是有限的
- 机器
- 带宽
-
资源利用率受限于部署服务
用户层面:
- 网络通信开销较大
- 网络抖动导致运维成本提高
- 异构环境下,不同实例资源水位不均
6.3.2 离在线资源并池
考虑到在线业务的潮汐性,物理资源的用量不是一成不变的。使用离在线资源并池,并制定方案实时调整整个池子中离线资源池与在线资源池的比例。
核心受益:
- 提高物理资源利用率,降低物力资源成本
- 提供更多的弹性资源,增加收入
在线业务的特点:
- IO密集型为主
- 潮汐性、实时性
离线业务的特点:
- 计算密集型占多数
- 非实时性
6.3.3 自动扩缩容
核心受益: 降低业务成本
解决思路: 利用在线业务潮汐性自动扩缩容
Q:扩缩容依据什么指标?
A:CPU某一个统计的分类数(P50, P99等),CPU利用率,内存利用率等等
6.3.4 微服务亲合性部署
目标: 微服务之间的通信成本较高,因此我们想
- 形态上是微服务架构
- 通信上是单体架构
核心受益:
- 降低业务成本
- 提高服务可用性
亲合性部署,通过将微服务调用形态与资源调度系统结合,将一些调用关系紧密、通信量大的服务部署在同一个机器上,并且使用 IPC 代替 RPC 的方式,降低网络通信带来的开销
- 将满足亲和性条件的容器调度到一台宿主机
- 微服务中间件与服务网格通过共享内存通信
- 服务网格控制面实施灵活、动态的流量调度
6.3.5 流量治理
核心受益:
- 提高微服务调用容错性
- 容灾
- 进一步提高开发效率,DevOps 发挥到极致
解决思路: 基于微服务中间件&服务网格的流量治理
- 熔断、重试
- 单元化
- 复杂环境(功能、预览)的流量调度
6.3.6 CPU水位负载均衡
核心受益:
- 打平异构环境算力差异
- 为自动扩缩容提供正向输入
解决思路: CPU水位负载均衡
- IaaS:提供资源探针
- 服务网格:动态负载均衡
6.4 后端架构实战
6.4.1 问题提炼
如何设计一个根据主机层面的资源信息,实时进行流量调度的系统,打平不同宿主机异构环境的算力差异。
输入:
-
服务网格数据面
- 支持带权重的负载均衡策略
-
注册中心存储了所有容器的权重信息
-
宿主机提供
- 容器的资源使用情况
- 物理资源信息(如CPU型号)
关键点:
- 紧急回滚能力
- 大规模
- 极端场景
6.4.2 自适应静态权重
方案:
- 采集宿主机物理资源信息
- 调整容器注册的权重
优势:
- 复杂度低
- 完全分布式,可用性高
- 微服务中间件无适配成本
缺点:
- 无紧急回滚能力
- 缺乏运行时自适应能力(权重固定)
6.4.3 自适应静态权重 Alpha
方案:
- 容器动态权重的自适应调整
- 服务网格的服务发现&流量调度能力
演进方向:
- 解决无法紧急回滚的问题(存储有一份静态权重,当出现问题时可调整回滚为静态权重)
- 运行时权重自适应
缺点:
- 过渡流量倾斜可能会有异常情况(网络出现异常导致某一宿主机完全无法处理请求等极端情况)
6.4.4 自适应静态权重 Beta
方案:
- 服务网格上报RPC指标
演进方向:
- 极端场景的处理成为可能
缺点:
- 时序数据库压力较大
- 动态权重决策中心职责越来越多,迭代=>变更=>风险
Tips:p50, p90, p99指标
p50, p90, p99(或者写作pct 50,pct90,pct 99)都是数据聚合统计一种方式,跟百分比相关(p的含义是percentile)。
p50: 数据集按升序排列,第50分位置大的数据(即升序排列后排在50%位置的数据)。 p90: 数据集按升序排列,第90分位置大的数据(即升序排列后排在90%位置的数据)。 p99: 数据集按升序排列,第99分位置大的数据(即升序排列后排在99%位置的数据)。
有什么实际含义和用处?
经常用来衡量服务响应延迟。以最常用的p99为例,它衡量了99%的情况下能达到的最大延迟,99%的请求都低于这个数值,即绝大多数情况下的最差情况。
6.4.5 自适应动态权重 Release
演进方向(动态权重决策中心):
- 微服务化
- 引入消息队列削峰、解耦
- 离在线链路切分
- 梳理强弱依赖
6.5 尾声
-
没有最好的架构,只有最合适的架构
-
如何做架构设计
- 需求先行: 先从需求出发,弄清楚要解决什么问题,要满足什么样的需求,预期规模有多大
- 业界调研: 做足够的业界调研。业界对于类似的需求是怎么做的?有无成熟的方案可以借鉴?直接拿来用有什么问题?
- 技术选型: 内部/社区都有哪些基础组件?涉及的技术组件是自研,还是使用开源的?
- 异常情况: 任何时候,都不能做『输入合法』的假设,容灾能力一定要有,要考虑xxx不行了怎么办。
-
学好架构,是工程师成长的一个重要标志
- 技术经理
- 架构师