微服务架构学习笔记 | 青训营笔记这是我参与「第五届青训营」伴学笔记创作活动的第 9 天，该篇笔记主要介绍了对于微架构

这是我参与「第五届青训营」伴学笔记创作活动的第 9 天

一、微服务架构介绍

1.1 系统架构演变历史：

单体架构

优势:

性能最高

冗余小

劣势:

debug困难
模块相互影响
模块分工、开发流程

垂直应用架构

按照业务线垂直划分

优势:

业务独立开发维护

劣势

不同业务存在冗余

每个业务还是单体

分布式架构

抽出业务无关的公共模块

优势:

业务无关的独立服务

劣势:

服务模块bug可导致全站瘫痪
调用关系复杂
不同服务冗余

SOA架构

面向服务--由服务注册中心来解耦

优势

服务注册

劣势:

整个系统设计是中心化的
需要从上至下设计
重构困难

微服务架构

彻底的服务化

优势:

开发效率
业务独立设计

自下而上

故障隔离

劣势:

治理、运维难度
观测挑战
安全性
分布式系统

1.2 核心要素

服务治理

服务治理服务注册服务发现负载均衡扩缩容流量治理稳定性治理

可观测性

日志采集

日志分析

监控打点

监控大盘

异常报警

链路追踪--就好像报错会栈式地返回出错函数一样。因为在微服务中，一个函数的调用可能是一个链式地跨越几十台机器，因此我们需要该功能来追踪相应的错误。

安全

身份验证认证授权访问令牌审计传输加密黑产攻击

二、微服务架构原理及特征

2.1 核心概念

服务(service)

一组具有相同逻辑的运行实体。

实例 ( instance)

一个服务中，每个运行实体即为一个实例（通俗来说一个服务就是运行同一个代码的多个实例）。

实例与进程的关系

实例与进程之间没有必然对应关系，可以一个实例可以对应一个或多个进程(反之不常见)

集群(cluster)

通常指服务内部的逻辑划分，包含多个实例。

常见的实例承载形式

进程、VM、k8s pod …

有状态/无状态服务

服务的实例是否存储了可持久化的数据(例如磁盘文件)。

服务间通信

对于单体服务，不同模块通信只是简单的函数调用。对于微服务，服务间通信意味着网络传输，例如：企业常用RPC|HTTP

2.2 服务注册及发现

由于一个服务里面有多个实例，因此如果仅仅是ip:port的形式调用服务，将无法知道具体调用哪个实例。

用DNS给不同实例区分解决可不可以？可以解决，但是优缺点

本地 DNS存在缓存，导致延时。

负载均衡问题。
不支持服务实例的探活检查。
域名无法配置端口。

解决思路:新增一个统一的服务注册中心，用于存储服务名到服务实例的映射。

2.3 流量特征

统一网关入口
内网通信多数采用RPC
网状调用链路

三、核心服务治理功能

3.1 服务发布

服务发布(deployment)，即指让一个服务升级运行新的代码的过程。

其有三大难点：

服务不可用

服务抖动---断掉某个服务的流量

服务回滚

解决：

蓝绿发布，分成两种，先升级一个颜色集群，将流量切到另一个颜色的集群。简单，稳定，但需要两倍资源。
灰度发布，上一个新实例，下一个旧实例，测试完成继续再上一个新实例...

3.2 流量治理

在微服务架构下，我们可以基于地区、集群、实例、请求等维度，对端到端流量的路由路径进行精确控制。

3.3 负载均衡

负载均衡(Load Balance)负责分配请求在每个下游实例上的分布。

3.4 稳定性治理

线上服务总是会出问题的，这与程序的正确性无关。

例如：网络攻击、流量突增、机房断电、光纤被挖、机器故障、网络故障、机房空调故障

微服务架构中典型的稳定性治理功能

限流、熔断、过载保护、降级

四、字节跳动服务治理实践之重试

不同于本地调用函数，在微服务的调用过程中，是涉及到网络的，因此我们可以加入重试操作，以来减少因为网络导致出的错误。

4.1 重试的意义

降低错误率

假设单次请求的错误概率为0.01，那么连续两次错误概率则为0.0001。

降低长尾延时

对于偶尔耗时较长的请求,重试请求有机会提前返回。

容忍暂时性错误

某些时候系统会有暂时性异常（例如网络抖动)，重试可以尽量规避。

避开下游故障实例

一个服务中可能会有少量实例故障（例如机器故障)，重试其他实例可以成功。

4.2 重试的问题

幂等性--多次请求可能会造成数据不—致

超时设置--假设一个调用正常是1s的超时时间，如果允许一次重试，那么第一次请求经过多少时间时，才开始重试呢?

重试风暴---跟调用链路有关，随着调用深度的增加，重试次数会指数级上涨(稍后分析)

例如下图，当服务down时，即便限制重试次数为3

4.3 重试的策略

限制重试比例。设定一个重试比例阈值（例如1%)，重试次数占所有请求比例不超过该阈值。
防止链路重试。链路层面的防重试风暴的核心是限制每层都发生重试，理想情况下只有最下一层发生重试。可以返回特殊的status表明“请求失败,但别重试”。
Hedged requests。对于可能超时(或延时高)的请求，重新向另一个下游实例发送一个相同的请求，并等待先到达的响应。