这是我参与「第五届青训营」伴学笔记创作活动的第 7 天。

1 概述

1.1 什么是分布式

分布式系统定义：跨多个节点的计算机程序的集合，这些程序利用多个独立计算节点的计算资源来实现共同的目标
使用分布式系统的五大优势：
- 去中心化
- 低成本
- 弹性
- 资源共享
- 可靠性高
分布式系统的挑战
- 故障
- 网络
- 环境
- 安全

1.2 Why-How-What

1.2.1 使用者视角

why：

对数据的存储和计算有大规模运用的需求
成本低，构建在廉价服务器之上

how：

分布式框架
成熟的分布式系统

what：

清理规模，负载，一致性要求等
明确稳定性要求，指定技术方案

1.2.2 学习者视角

why：

后端开发必备技能
帮助理解后台服务器之间协作的机理

how：

掌握分布式理论
了解一致性协议

what：

把要点深入展开，针对难点搜索互联网资料进行学习
将所学知识运用于实践

1.3 常见的分布式系统

分布式存储：GFS、Ceph、HDFS、Zookeeper
分布式数据库：Spanner、TiDB、HBase、MangoDB
分布式计算：Hadoop、YARN、Spark

2 系统模型

2.1 故障模型

六种故障模型，从处理的难易程度分类

Byzantine failure：节点可以任意篡改发送给其他节点的数据，是最难处理的故障
Authentication detectable byzantine failure (ADB)：节点可以篡改数据，但不能伪造其他节点的数据
Performance failure：节点未在特定时间段内收到数据，即时间太早或太晚
Omission failure：节点收到数据的时间无限晚，即收不到数据
Crash failure：节点停止响应，持续性的故障
Fail-stop failure：错误可检测，是最容易处理的故障

故障模型举例，按照模型分类

2.2 拜占庭将军问题

2.2.1 两将军问题

定义：
- 两支军队的将军只能派信使穿越敌方领土互相通信，以此约定进攻时间。该问题希望求解如何在两名将军派出的任何信使都可能被俘虏的情况下，就进攻时间达成共识
结论：
- 两将军问题是被证实无解的电脑通信问题，两支军队理论上永远无法达成共识
TCP是两将军问题的一个工程解：在两个方向确认包的序列号，增加了超时重试

2.2.2 三将军问题

两个“忠将”A和B，一个“叛徒”C，互相传递消息，消息可能丢失，也可能被篡改，当有一个将军是“叛徒”（即出现拜占庭故障）时，整个系统无法达成一致。
由于“叛徒”C的存在，将军A和将军B获得不同的信息。这样将军A获得2票进攻1票撤退的信息，将军B获得1票进攻2票撤退的信息，产生了不一致

2.2.3 四将军问题

将军D作为消息分发中枢，约定如果没收到消息则执行撤退
步骤：
- 如果D为“叛徒”，ABC无论收到任何消息，总能达成一致
- D为“忠将”，ABC有2人将D的消息进行正确的传递，同样能保证最终决策符合大多数。
进而能够证明，当有3m+1个将军，m个“叛徒”时，可以进行m轮协商，最终达成一致

2.3 共识和一致性

不同客户端A和B看到客户端C写入，因为时机的不同，产生数据读取的偏差。若C写入完成后，A和B最终能读到一致的数据，则称这样的一致性为最终一致性。
当客户端A读到更新的版本后，及时将消息同步给其他客户端，这样其他客户端也能立即获取到新版本，称这样的一致性为线性一致性。
要保证所有客户端看到相同的值，需要多节点进行“协商”，达成共识，来保证线性一致性
一致性和可用性是对矛盾

2.4 时间和事件顺序

1978年Leslie Lamport发表《Time, Clocks, and the Ordering of Events in a Distributed System》

定义了计算机系统中的时间和事件顺序，引入happened before和并发的定义，可以以此对分布式系统中的事件进行推导
“发生在先(happens-before)” 关系（e是事件）：
- 若存在进程p $_i$ 满足e→ $_i$ e’，则e→e’
- 对于任一消息m，存在send(m) →recv(m)
- 事件满足e→e’ 和e’→e’’ ，则e→e’’
并发关系：

X→Y 与 Y→X均不成立，则称事件X、Y是并发的，表示为X ||Y
根据上述推导，创造了Lamport逻辑时钟的概念，这个概念在分布式理论中具有革命性的意义，帮助我们在一系列分布式事件当中梳理出逻辑的先后关系。利用逻辑时钟，我们可以对整个系统中的事件进行全序排序
Lamport逻辑时钟机制：
- 进程pi维护一个单调递增的软件计数器，充当逻辑时钟Li
- 用逻辑时钟为事件添加时间戳，用Li(e)表示pi的事件e的时间戳
- 按事件的时间戳大小为事件排序
逻辑时钟修改规则：
- LC1：进程pi执行事件前，逻辑时钟 $L_i:= L_i+1$
- LC2:：
  - 进程pi发送消息m时，在m中添加时间戳 $t=L_i$
  - 进程pj在接收(m,t)时，更新 $L_j:=\max(L_j,t)+1$ ，给事件recv(m)添加时间戳应用LC1。

3 理论基础

3.1 CAP 理论

CAP的定义，分别代表一致性、可用性、分区容错性。三者无法同时达到

CAP诞生了三类系统：

CA系统：传统数据库的代表
AP系统：放弃强一致性，保证高可用，不少nosql存储系统采用
CP系统：放弃可用性，保证数据一致性

举例说明两个分布式进程之间同步数据，当出现故障的时候，如何选择不同的CAP系统，以及带来的影响

CP系统：故障发生时，为了避免读到不一致的数据，可能拒绝访问
AP系统：故障发生时，为了保证可用性，允许不同进程读到不同的数据

针对故障场景，可以通过故障转移的方式，做一个相对较优的解决方式：

允许一个进程作为Master，其他进程作为Backup，当故障时将请求转移给Backup进行处理

3.2 ACID 理论

ACID理论是针对CA系统而言的，通常在数据库中具有广泛意义

事务是数据库系统中非常重要的概念，它是数据库管理系统执行过程中的一个逻辑单元，它能够保证一个事务中的所有操作要么全部执行，要么全都不执行

数据库事务拥有四个特性ACID：

原子性（Atomicity）：事务所包含的所有操作要么全部成功，要么全部失败回滚
一致性（Consistency）：事务必须使数据库从一个一致性状态转变为另一个一致性状态，也就是说一个事务执行前后都必须处于一致性状态
隔离性（Isolation）：多个用户并发访问数据时，数据库为每个用户开启的事务，不能被其他事务的操作干扰，多个并发事务之间要相互隔离
持久性（Durability）：一个事务一旦被提交，对数据库中数据的改变就是永久性的，即使在数据库系统遇到故障的情况下也不会丢失提交事务的操作。

3.3 BASE理论

BASE理论是针对AP系统而言的，其来源于对大型互联网分布式实践的总结，是对CAP中一致性和可用性权衡的结果。

Basically Available(基本可用)：假设系统，出现了不可预知的故障，但还是能用
Soft state（软状态）：允许系统中的数据存在中间状态，并认为该状态不影响系统的整体可用性，即允许系统在多个不同节点的数据副本存在数据延时
Eventually consistent（最终一致性）：系统保证在没有其他新的更新操作的情况下，数据最终一定能够达到一致的状态。

4 分布式事务

4.1 二阶段提交

定义：

二阶段提交（Two-phase Commit）：为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种演算法。

三个假设：

协调者和参与者进行通信
预写式日志被保持在可靠的存储设备上
所有节点不会永久性损坏，即使损坏后仍然可以恢复

正常流程：Prepare阶段和Commit阶段

异常流程：

Prepare阶段失败 -> 回滚；
协调者宕机 -> 重新启用新的协调者；
双故障重启 -> 数据库管理员介入

两阶段提交需解决的问题：

性能问题：需要多次网络通信，资源需要等待并锁定
协调者单点故障问题：事务协调者节点宕机时，如何确定状态选出新协调者
Commit阶段网络分区带来的数据不一致问题：非所有节点都收到Commit请求

两个思考：

日志被保存在「可靠」的存储设备上。如何保证这一点？
参与者Commit了，但Ack信息协调者没收到。怎么办？

4.2 三阶段提交

针对两阶段提交的补充，将两阶段提交中的Prepare阶段，拆成两部分：CanCommit和PreCommit机制
- CanCommit阶段：询问是否可以执行
- PreCommit阶段：重新确认是否可以执行
- 这两个阶段都确认时，进入 DoCommite阶段：向所有人提交事务
解决了两个问题
- 单点故障问题
- 阻塞问题
依然没有解决
- 性能问题
- 网络分区带来的数据不一致问题

4.3 MVCC

MVCC：多版本并发控制的方法。维持一个数据的多个版本使读写操作没有冲突。所以既不会阻塞写，也不阻塞读。提高并发性能的同时也解决了脏读的问题。

悲观锁和乐观锁

悲观锁：操作数据时直接把数据锁住，直到操作完成后才会释放锁；上锁期间其他人不能修改数据
乐观锁：不会上锁，只是在执行更新时判断别人是否修改数据，只有冲突时才放弃操作

版本的选取：使用物理时钟或逻辑时钟

物理时钟：提供TrueTime API，有Master节点维持一个绝对时间，保证各个服务器之间时钟误差控制在ϵ内，通常ϵ<7ms。
逻辑时钟：中心化授时的方式--时间戳预言机（TSO），好处是无需硬件的支持

5 共识协议

5.1 Quorum NWR模型

三要素：

N：在分布式存储系统中，有多少份备份数据
W：代表一次成功的更新操作要求至少有W份数据写入成功
R：代表一次成功的读数据操作要求至少有R份数据成功读取

为了保证强一致性，需要保证 W+R>N

Quorum NWR模型将CAP的选择交给用户，是一种简化版的一致性模型

引起的并发更新问题：如果允许数据被覆盖，则并发更新容易引起一致性问题

5.2 RAFT协议

概述
- Raft协议是一种分布式一致性算法（共识算法），即使出现部分节点故障，网络延时等情况，也不影响各节点，进而提高系统的整体可用性。Raft是使用较为广泛的分布式协议。
三种角色
- Leader - 领导者：Leader 负责处理所有的客户端请求，并向Follower同步请求日志，当日志同步到大多数节点上后，通知Follower提交日志。当日志同步到大多数节点上后，通知Follower提交日志
- Follower - 跟随者：不发送任何请求。接受并持久化Leader同步的日志，在Leader告知日志可以提交后，提交日志。当Leader出现故障时，主动推荐自己为Candidate
- Candidate - 备选者：Leader选举过程中的临时角色。向其他节点发送请求投票信息，获得多数选票的当选为Leader
四种定义：
- Log（日志）：节点之间同步的信息，以只追加写的方式进行同步，解决了数据被覆盖的问题
- Term（任期号）：单调递增，每个Term内最多只有一个Leader
- Committed：日志被复制到多数派节点，即可认为已经被提交
- Applied：日志被应用到本地状态机：执行了log中命令，修改了内存状态
状态转移：
Leader选举的两个规则
- 一个任期内每个参与者最多投一票
- 要成为Leader，必须拿到多数投票
Leader选举过程：
- 初始全部为Follower
- Current Term + 1
- 选举自己
- 向其它参与者发起RequestVote请求，retry直到
  - 收到多数派请求，成为Leader，并发送心跳
  - 收到其它Leader的请求，转为Follower，更新自己的Term
  - 收到部分，但未达到多数派，选举超时，随机timeout开始下一轮
Log Replication过程：（新Leader产生，Leader和Follower不同步，Leader强制覆盖Followers的不同步的日志）
- Leader 收到写请求w
- 将w写入本地log
- 向其他Follwer放弃AppendEntries RPC
- 等待多数派回复
  - 更新本地状态机，返回给客户端
  - 下一个心跳通知Follower上一个Log已经被Committed了
  - Follower也根据命令应用本地状态机
- Follower有问题，Leader一直retry
切主：当Leader出现问题时，就需要进行重新选举
- Leader发现失去Follower的响应，失去Leader身份
- 两个Follower之间一段时间未收到心跳，重新进行选举，选出新的Leader，此时发生了切主
- Leader自杀重启，以Follower的身份加入进来
Stale读：
- 发生Leader切换，old leader收到了读请求。如果直接响应，可能会有Stale Read
- 解决方案：保证读的强一致
- 读操作在lease timeout内，默认自己是leader，不是则发起一次heartbeat，等待commit index应用到状态机
- election timeout > lease timeout：新 leader商人，自从上一次心跳过后超过了 election timeout，旧leader大概率能够发现自己的lease过期

5.3 Paxos协议

Paxos算法与RAFT算法区别：
- Multi-Paxos 可以并发修改日志，而Raft写日志操作必须是连续的
- Multi-Paxos 可以随机选主，不必最新最全的节点当选Leader
优劣势
- 优势：写入并发性能高，所有节点都能写
- 劣势：没有一个节点有完整的最新的数据，恢复流程复杂，需要同步历史记录

6 分布式实践

6.1 MapReduce

设计一个简易的MapReduce系统

Mapper：将输入分解为多个Job来并行处理，彼此间几乎没有依赖关系
Shuffler：将Maper结果打乱，防止数据倾斜
Reducer：对map阶段的结果进行全局汇总

6.2 分布式KV

设计一个简易的分布式键值系统，要求具备弹性的能力和达成线性一致

架构：将海量架构化数据根据key分成不同的region，每个region构建一个单机KV数据库，region之间形成Raft Groups，做到强一致
容错：当node故障时，通过Raft Leaner模式进行数据修复
弹性：当出现局部key热点或数据膨胀时，region可以进行split操作，分成两个子region，反之收缩时进行merge操作。

后端架构之分布式理论 ｜ 青训营笔记