【架构初探】企业级后端架构挑战-后端架构实战 | 青训营笔记

250 阅读5分钟

这是我参与「第五届青训营」伴学笔记创作活动的第 8 天,今天学习的内容是关于企业级后端架构剖析、后端架构实战,根据课程内容整理学习笔记如下。

6.3 企业级后端架构的挑战

6.3.1 挑战

基础设施层面:

  • 物理资源是有限的

    • 机器
    • 带宽
  • 资源利用率受限于部署服务

用户层面:

  • 网络通信开销较大
  • 网络抖动导致运维成本提高
  • 异构环境下,不同实例资源水位不均

image-20230131135109500.png

6.3.2 离在线资源并池

考虑到在线业务的潮汐性,物理资源的用量不是一成不变的。使用离在线资源并池,并制定方案实时调整整个池子中离线资源池与在线资源池的比例

核心受益:

  • 提高物理资源利用率,降低物力资源成本
  • 提供更多的弹性资源,增加收入

a1355784a0ae446d8c29b846baa20503tplv-k3u1fbpfcp-zoom-in-crop-mark4536000.webp

在线业务的特点:

  • IO密集型为主
  • 潮汐性、实时性

离线业务的特点:

  • 计算密集型占多数
  • 非实时性

6.3.3 自动扩缩容

核心受益: 降低业务成本

解决思路: 利用在线业务潮汐性自动扩缩容

image-20230131140308190.png

Q:扩缩容依据什么指标

A:CPU某一个统计的分类数(P50, P99等),CPU利用率,内存利用率等等

6.3.4 微服务亲合性部署

目标: 微服务之间的通信成本较高,因此我们想

  • 形态上是微服务架构
  • 通信上是单体架构

核心受益:

  • 降低业务成本
  • 提高服务可用性

亲合性部署,通过将微服务调用形态与资源调度系统结合,将一些调用关系紧密、通信量大的服务部署在同一个机器上,并且使用 IPC 代替 RPC 的方式,降低网络通信带来的开销

  • 将满足亲和性条件的容器调度到一台宿主机
  • 微服务中间件与服务网格通过共享内存通信
  • 服务网格控制面实施灵活、动态的流量调度

image-20230131140952132.png

6.3.5 流量治理

核心受益:

  • 提高微服务调用容错性
  • 容灾
  • 进一步提高开发效率,DevOps 发挥到极致

解决思路: 基于微服务中间件&服务网格的流量治理

  • 熔断、重试
  • 单元化
  • 复杂环境(功能、预览)的流量调度

6.3.6 CPU水位负载均衡

核心受益:

  • 打平异构环境算力差异
  • 为自动扩缩容提供正向输入

解决思路: CPU水位负载均衡

  • IaaS:提供资源探针
  • 服务网格:动态负载均衡

image-20230131142157426.png

6.4 后端架构实战

6.4.1 问题提炼

如何设计一个根据主机层面的资源信息,实时进行流量调度的系统,打平不同宿主机异构环境的算力差异。

输入:

  • 服务网格数据面

    • 支持带权重的负载均衡策略
  • 注册中心存储了所有容器的权重信息

  • 宿主机提供

    • 容器的资源使用情况
    • 物理资源信息(如CPU型号)

关键点:

  • 紧急回滚能力
  • 大规模
  • 极端场景

image-20230131175756789.png

6.4.2 自适应静态权重

方案:

  • 采集宿主机物理资源信息
  • 调整容器注册的权重

优势:

  • 复杂度低
  • 完全分布式,可用性高
  • 微服务中间件无适配成本

缺点:

  • 无紧急回滚能力
  • 缺乏运行时自适应能力(权重固定)

image-20230131181735884.png

6.4.3 自适应静态权重 Alpha

方案:

  • 容器动态权重的自适应调整
  • 服务网格的服务发现&流量调度能力

演进方向:

  • 解决无法紧急回滚的问题(存储有一份静态权重,当出现问题时可调整回滚为静态权重)
  • 运行时权重自适应

缺点:

  • 过渡流量倾斜可能会有异常情况(网络出现异常导致某一宿主机完全无法处理请求等极端情况)

image-20230131182244853.png

6.4.4 自适应静态权重 Beta

方案:

  • 服务网格上报RPC指标

演进方向:

  • 极端场景的处理成为可能

缺点:

  • 时序数据库压力较大
  • 动态权重决策中心职责越来越多,迭代=>变更=>风险

image-20230131182905953.png

Tips:p50, p90, p99指标

p50, p90, p99(或者写作pct 50,pct90,pct 99)都是数据聚合统计一种方式,跟百分比相关(p的含义是percentile)。

p50: 数据集按升序排列,第50分位置大的数据(即升序排列后排在50%位置的数据)。 p90: 数据集按升序排列,第90分位置大的数据(即升序排列后排在90%位置的数据)。 p99: 数据集按升序排列,第99分位置大的数据(即升序排列后排在99%位置的数据)。

有什么实际含义和用处?

经常用来衡量服务响应延迟。以最常用的p99为例,它衡量了99%的情况下能达到的最大延迟,99%的请求都低于这个数值,即绝大多数情况下的最差情况。

6.4.5 自适应动态权重 Release

演进方向(动态权重决策中心):

  • 微服务化
  • 引入消息队列削峰、解耦
  • 离在线链路切分
  • 梳理强弱依赖

image-20230131183805661.png

6.5 尾声

  1. 没有最好的架构,只有最合适的架构

  2. 如何做架构设计

    • 需求先行: 先从需求出发,弄清楚要解决什么问题,要满足什么样的需求,预期规模有多大
    • 业界调研: 做足够的业界调研。业界对于类似的需求是怎么做的?有无成熟的方案可以借鉴?直接拿来用有什么问题?
    • 技术选型: 内部/社区都有哪些基础组件?涉及的技术组件是自研,还是使用开源的?
    • 异常情况: 任何时候,都不能做『输入合法』的假设,容灾能力一定要有,要考虑xxx不行了怎么办。
  3. 学好架构,是工程师成长的一个重要标志

    • 技术经理
    • 架构师