这是我参与「第五届青训营」伴学笔记创作活动的第 14 天

今天认识一下现代架构基石——分布式理论

前言

1. 什么是分布式？

分布式系统是计算机程序的集合，这些程序利用跨多个独立计算节点的计算资源来实现共同的目标。可以分为分布式计算、分布式存储、分布式数据库等

优势

去中心化
低成本
弹性
资源共享
可靠性高

挑战

普遍的节点故障
不可靠的网络
异构的机器与硬件环境
安全

2. Why-How-What

标题	使用者视角	学习者视角
Why	1. 数据爆炸，对存储和计算有大规模运用的诉求；2. 成本低，构建在廉价服务器之上	1. 后端开发必备技能；2. 帮助理解后台服务器之间协作的机理
How	1. 分布式框架；2. 成熟的分布式系统	1.掌握分布式理论；2.了解一致性协议
What	1. 理清规模，负载，一致性要求等；2.明确稳定性要求，制定技术方案	1.把要点深入展开，针对难点搜索互联网资料进行学习；2.将所学知识运用于实践

3. 常见的分布式系统

分布式存储
- 1. Google File System (GFS) : google 分布式文件系统；
- 1. Ceph: 统一的分布式存储系统
- 1. Hadoop HDFS: 基于 GFS 架构的开源分布式文件系统
- 1. Zookeeper: 高可用的分布式数据管理与系统协调框架
分布式数据库
- 1. Google Spanner: google 可扩展的、全球分布式的数据库；
- 1. TiDB: 开源分布式关系型数据库
- 1. HBase: 开源 Nosql 数据库
- 1. MongoDB: 文档数据库
分布式计算
- 1. Hadoop: 基于 MapReduce 分布式计算框架；
- 1. Spark: 在 Hadoop 基础之上，使用内存来存储数据
- 1. YARN: 分布式资源调度

系统模型

故障模型

Byzantine failure:
- 节点可以任意篡改发送给其他节点的数据；
Authentication detectable byzantine failure(ADB):
- Byzantine failure 的特例；节点可以篡改数据，但不能伪造其他节点的数据；
Performance failure:
- 节点未在特定时间段内收到数据，即时间太早或太晚；
Omission failure:
- 节点收到数据的时间无限晚，即收不到数据；
Crash failure:
- 在 omission failure 的基础上，增加了节点停止响应的假设，也即持续性地 omission failure；
Fail-stop failure:
- 在 Crash failure 的基础上增加了错误可检测的假设。

拜占庭将军问题

引入

两将军问题（Two Generals' Problem）

两支军队的将军只能派信使穿越敌方领土互相通信，以此约定进攻时间。该问题希望求解如何在两名将军派出的任何信使都可能被俘虏的情况下，就进攻时间达成共识。

结论

两将军问题是被证实无解的电脑通信问题，两支军队理论上永远无法达成共识.

方案一: 同时发送 N 个信使，任何一个达到对方军队，都算成功。
方案二: 设置超时时间，发送后未在一定时间返回，则加派信使。

共识与消息传递的不同: 即使保证了消息传递成功，也不能保证达成共识

TCP 三次握手是在两个方向确认包的序列号，增加了超时重试，是两将军问题的一个工程解。

思考:

为何三次握手? 而不是两次和四次?
挥手过程中，如果 FIN 报文丢失，发生什么?

拜占庭将军问题

拜占庭将军考虑更加普适的场景，例如 3 个将军 ABC 互相传递消息，消息可能丢失，也可能被篡改，当有一个将军是"叛徒（即出现拜占庭故障）时，整个系统无法达成一致。

如果没有“叛徒”，无论各自观察到怎样的敌情，总能达成一致的行动。

由于“叛徒” C 的存在，将军 A 和将军 B 获得不同的信息。这样的话，将军 A 获得 2 票进攻 1 票撤退的信息，将军 B 获得 1 票进攻 2 票撤退的信息，产生了不一致。

考虑当有 4 个将军，只有 1 个叛徒的场景。将军 D 作为消息分发中枢，约定如果没收到消息则执行撤退如果D为“叛徒”，ABC无论收到任何消息，总能达成一致D为“忠将”，ABC有2人将D的消息进行正确的传递，同样能保证最终决策符合大多数。进而能够证明，当有3m+1个将军，其中m个“叛徒”时，可以增加m轮协商，最终达成一致

共识和一致性

时间和事件顺序

理论基础

CAP 理论

提到分布式理论就不得不说 CAP 理论了

C（Consistence）
- 一致性，指数据在多个副本之间能够保持一致的特性 (严格的一致性) 。
A（Availability）
- 可用性，指系统提供的服务必须一直处于可用的状态，每次请求都能获取到非错的响应————但是不保证获取的数据为最新数据。
P（Network partitioning）
- 分区容错性，分布式系统在遇到任何网络分区故障的时候，仍然能够对外提供满足一致性和可用性的服务，除非整个网络环境都发生了故障。

CAP 理论往往运用于数据库领域，同样可以适用于分布式存储方向

CA
- 放弃分区容错性，加强一致性和可用性，其实就是传统的单机数据库的选择；
AP
- 放弃一致性 (这里说的一致性是强一致性) ，追求分区容错性和可用性，例如一些注重用户体验的系统；
CP
- 放弃可用性，追求一致性和分区容错性，例如与钱财安全相关的系统。

在网络发生分区的情况下，我们必须在可用性和一致性之间做出选择。近似解决办法: 把故障节点的负载转移给备用节点负责。

ACID 理论

感觉是特别重要的一个理论！

事务是数据库系统中非常重要的概念，它是数据库管理系统执行过程中的一个逻辑单元，它能够保证一个事务中的所有操作要么全部执行，要么全都不执行。

数据库事务拥有四个特性 ACID，即分别是原子性（Atomicity）、一致性（Consistency）、隔离性（lsolation）和持久性（Durability）

原子性(A)
- 原子性是指事务包含的所有操作要么全部成功，要么全部失败回滚。
一致性 (C)
- 一致性是指事务必须使数据库从一个一致性状态变换到另一个一致性状态，也就是说一个事务执行之前和执行之后都必须处于一致性状态。
隔离性(I)
- 隔离性是当多个用户并发访问数据库时，数据库为每一个用户开启的事务，不能被其他事务的操作所干扰，多个并发事务之间要相互隔离。
持久性(D)
- 持久性是指一个事务一旦被提交了，那么对数据库中的数据的改变就是永久性的，即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。

BASE 理论

Base 理论

Base 理论是对 CAP 中一致性和可用性权衡的结果，其来源于对大型互联网分布式实践的总结，是基于 CAP 定理逐步演化而来的。

核心思想

Basically Available（基本可用）:

假设系统，出现了不可预知的故障，但还是能用，相比较正常的系统而言: 响应时间上的损失或功能上的损失；

Soft state（软状态）：

允许系统中的数据存在中间状态，并认为该状态不影响系统的整体可用性，即允许系统在多个不同节点的数据副本存在数据延时。

Eventually consistent (最终一致性):

系统能够保证在没有其他新的更新操作的情况下，数据最终一定能够达到一致的状态，因此所有客户端对系统的数据访问最终都能够获取到最新的值。

分布式事务

两阶段提交

二阶段提交(Two-phase Commit) 为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种演算法。

Prepare 阶段
Commit 阶段

三个假设

引入协调者 (Coordinator) 和参与者 (Participants) ，互相进行网络通信
所有节点都采用预写式日志，且日志被写入后即被保持在可靠的存储设备上
所有节点不会永久性损坏，即使损坏后仍然可以恢复

可能出现的情况

情况1) Coordinator 不宕机，Participant 宕机。如下图所示，需要进行回滚操作
情况2) Coordinator 宕机，Participant 不宕机。可以起新的协调者，待查询状态后，重复二阶段提交
情况3) Coordinator 宕机，Participant 宕机。
- 情况3: 无法确认状态，需要数据库管理员的介入，防止数据库进入一个不一致的状态。

回滚:

在 Prepare 阶段，如果某个事务参与者反馈失败消息，说明该节点的本地事务执行不成功，必须回滚。

两阶段提交需注意的问题

性能问题

两阶段提交需要多次节点间的网络通信，耗时过大，资源需要进行锁定，徒增资源等待时间。

协调者单点故障问题

如果事务协调者节点宕机，需要另起新的协调者，否则参与者处于中间状态无法完成事务。

网络分区带来的数据不一致

部分参与者收到了 Commit 消息，另一部分参与者没收到 Commit 消息，会导致了节点之间数据不一致。

思考?

日志被保存在【可靠】的存储设备上。如何保证这一点?
参与者 Commit 了，但 Ack 信息协调者没收到。怎么办?

三阶段提交

CanCommit:

Coordinator——询问是否可以执行——>Participants
Coordinator<——可以则进入 PreCommit 阶段，失败或超时则退出——Participants

PreCommit

Coordinator——询问是否可以执行——>Participants
Coordinator<——可以则进入 DOCommit 阶段，失败或超时则 Rollback ——Participants

DoCommit

Coordinator——向所有人提交事务请求——>Participants
Coordinator<——反馈提交结果 Ack ——Participants

三阶段提交 vs 两阶段提交

将两阶段提交中的 Prepare 阶段，拆成两部分：CanCommit 和 PreCommit 机制

解决了两个问题

1. 单点故院问题
1. 阻塞问题

另外引入超时机制，在等待超时之后，会继续进行事务的提交。

三阶段缓和了两阶段面临的问题，但依然没有解决:

1. 性能问题
1. 网络分区场景带来的数据一致性问题

MVCC

悲观锁
- 操作数据时直接把数据锁住，直到操作完成后才会释放锁；上锁期间其他人不能修改数据
乐观锁
- 不会上锁，只是在执行更新时判断别人是否修改数据，只有冲突时才放弃操作

MVCC是一种并发控制的方法，维持一个数据的多个版本使读写操作没有冲突。所以既不会阻塞写，也不阻塞读。MVCC 为每个修改保存一个版本，和事务的时间戳相关联。可以提高并发性能，解决脏读的问题。

另外一种时间戳的实现: 时间戳预言机(TSO)，采用中心化的授时方式，所有协调者向中心化节点获取时钟。

优点
- 是算法简单，实现方便，但需要每个节点都与他进行交互，会产生一些网络通信的成本。TSO 的授时中就需要考虑低延迟，高性能以及更好的容错性。

初识【分布式架构】 ｜ 青训营笔记

系统模型

故障模型

拜占庭将军问题

引入

拜占庭将军问题

共识和一致性

时间和事件顺序

理论基础

CAP 理论

ACID 理论

BASE 理论

分布式事务

两阶段提交

两阶段提交需注意的问题

思考?

三阶段提交

MVCC

初识【分布式架构】｜青训营笔记