分布式理论

这是我参与「第五届青训营」伴学笔记创作活动的第8天。

本节课主要包括如下几部分内容：分布式概念、系统模型、理论基础、分布式事务、共识协议、分布式实践六个部分。

分布式概念

分布式系统定义：跨多个节点的计算机程序的集合。主要可以分为分布式计算、分布式存储、分布式数据库等。

分布式概述

使用分布式系统的五大优势：去中心化、低成本、弹性、资源共享、可靠性高

分布式系统的挑战：节点故障、网络可靠性、异构的环境、安全

分布式系统的含义：

使用者：

使用分布式系统的原因：大规模计算存储的述求；成本低，能够构建在廉价服务器上。

使用什么分布式系统：分布式框架、成熟的分布式系统。

如何使用分布式系统：理清规模，负载以及一致性等要求；明确稳定性要求，制定技术方案。

学习者：

使用分布式系统的原因：后端开发必备技能；帮助理解后台服务器之间协作的机理使用什么分布式系统：掌握分布式理论；了解一致性协议

如何使用分布式系统：把要点深入展开，针对难点搜索互联网资料，将所学知识运用至实践中。

常见的分布式系统：

分布式存储：GFS、Ceph、Hadoop HDFS、Zookeeper

分布式数据库：Google Spanner、TiDB、Hbase、MongoDB

分布式计算：Hadoop、Spark、YARN

系统模型

故障模型

主要分为六种故障模型，从处理的难易分类可分为：

Byzantine failure：节点可以任意篡改发送给其他节点的数据，是最难处理的故障
Authentication detectable byzantine failure (ADB)：节点可以篡改数据，但不能伪造其他节点的数据
Performance failure：节点未在特定时间段内收到数据，即时间太早或太晚
Omission failure：节点收到数据的时间无限晚，即收不到数据
Crash failure：节点停止响应，持续性的故障
Fail-stop failure：错误可检测，是最容易处理的故障

故障模型，按照模型可分为：磁盘、主板、交换机、网络分区、CPU、内存、线缆、电源等故障详细说明

拜占庭将军问题

两将军问题

定义：两支军队的将军只能派信使穿越敌方领土互相通信，以此约定进攻时间。该问题希望求解如何在两名将军派出的任何信使都可能被俘虏的情况下，就进攻时间达成共识

结论：两将军问题已经被证实是无解的电脑通信问题，两将军理论永远无法达成共识。

三将军问题

定义：两个“忠将”A和B，一个“叛徒”C，互相传递消息，消息可能丢失，也可能被篡改，当有一个将军是“叛徒”（即出现拜占庭故障）时，整个系统无法达成一致。

结论：由于“叛徒”C的存在，将军A和将军B获得不同的信息。这样将军A获得2票进攻1票撤退的信息，将军B获得1票进攻2票撤退的信息，产生了不一致

四将军问题定义：将军D作为消息分发中枢，约定如果没收到消息则执行撤退。

结论：如果D为“叛徒”，ABC无论收到任何消息，总能达成一致，D为“忠将”，ABC有2人将D的消息进行正确的传递，同样能保证最终决策符合大多数。可以证明有3m+1个将军，m个叛徒时，可以进行m轮协商，最终能够达成一致。

共识和一致性

不同客户端A和B看到客户端C写入，因为时机的不同，产生数据读取的偏差。引导出最终一致性的详细说明

要保证所有客户端看到相同的值，需要多节点进行“协商”，达成共识，来保证线性一致性

一致性和可用性是对矛盾

理论基础

CAP理论

CAP的定义，分别代表一致性、可用性、分区容错性。三者无法同时达到

CAP诞生了三类系统：

CA系统：传统数据库的代表，放弃分区容错性，加强一致性和可用性

AP系统：放弃强一致性，保证高可用，不少nosql存储系统采用

CP系统：放弃可用性，保证数据一致性和分区容错性。

不同系统出现故障时采取的操作：

CP系统：故障发生时，为了避免读到不一致的数据，可能拒绝访问

AP系统：故障发生时，为了保证可用性，允许不同进程读到不同的数据

针对故障场景里，可以通过故障转移的方式，做一个相对较优的解决方式：

允许一个进程作为Master，其他进程为Backup，当故障将请求转移给Backup进行处理

ACID理论

ACID理论是针对CA系统而言的，通常在数据库中具有广泛意义

事务是数据库系统中非常重要的概念，它是数据库管理系统执行过程中的一个逻辑单元，它能够保证一个事务中的所有操作要么全部执行，要么全都不执行数据库事务拥有四个特性ACID：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持久性（Durability）

BASE理论

BASE理论是针对AP系统而言的，其来源于对大型互联网分布式实践的总结

Basically Available(基本可用)：假设系统，出现了不可预知的故障，但还是能用

Soft state（软状态）：允许系统中的数据存在中间状态，并认为该状态不影响系统的整体可用性

Eventually consistent（最终一致性）：数据最终一定能够达到一致的状态

分布式事务

二阶段提交

定义：二阶段提交（Two-phase Commit）：为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种演算法。

三个假设：

协调者和参与者进行通信

预写式日志被保持在可靠的存储设备上

所有节点不会永久性损坏，即使损坏后仍然可以恢复

正常流程：Prepare阶段和Commit阶段

异常流程：Prepare阶段失败 -> 回滚；协调者宕机 -> 重新启用新的协调者；双故障重启 -> 数据库管理员介入

两阶段提交需要解决的问题：

性能问题：需要多次节点间的网络通信，耗时很大，资源需要等待并锁定，这样会徒增资源等待时间

新协调者：如果事务协调者节点宕机，需要另起新的协调者，否则参与者处于中间状态无法完成事务。如何确定状态选出新协调者

Commit阶段网络分区带来的数据不一致：非所有节点都收到Commit请求，如果有一部分参与者收到了commit消息，另一部分参与者没有收到commit消息会导致节点之间的数据不一致。

三阶段提交

针对两阶段提交的补充，将两阶段提交中的Prepare阶段，拆成两部分：CanCommit和PreCommit机制

CanCommit阶段：询问是否可以执行；PreCommit阶段：重新确认是否可以执行

DoCommit阶段：向所有人提交事务

MVCC

定义：多版本并发控制的方法。维持一个数据的多个版本使读写操作没有冲突。所以既不会阻塞写，也不阻塞读。提高并发性能的同时也解决了脏读的问题。

悲观锁：操作数据时直接把数据锁住，直到操作完成后才会释放锁；上锁期间其他人不能修改数据

乐观锁：不会上锁，只是在执行更新时判断别人是否修改数据，只有冲突时才放弃操作

版本的选取：使用物理时钟或者逻辑始终

物理时钟：提供TrueTime API，有Master节点维持一个绝对时间，保证各个服务器之间时钟误差控制在ϵ内，通常ϵ<7ms。

逻辑时钟：中心化授时的方式--时间戳预言机（TSO），好处是无需硬件的支持。

共识协议

Quorum NWR模型

三要素：

N：在分布式存储系统中，有多少份备份数据

W：代表一次成功的更新操作要求至少有w份数据写入成功

R：代表一次成功的读数据操作要求至少有R份数据成功读取

为了保证强一致性，需要保证 W+R>N

Quorum NWR模型将CAP的选择交给用户，是一种简化版的一致性模型

引起的并发更新问题

如果允许数据被覆盖，则并发更新容易引起一致性问题

RAFT协议

概述：Raft协议是一种分布式一致性算法（共识算法），即使出现部分节点故障，网络延时等情况，也不影响各节点，进而提高系统的整体可用性。Raft是使用较为广泛的分布式协议

三种角色：

Leader - 领导者：Leader 负责处理所有的客户端请求，并向Follower同步请求日志，当日志同步到大多数节点上后，通知Follower提交日志

Follower - 跟随者：接受并持久化Leader同步的日志，在Leader告知日志可以提交后，提交日志

Candidate - 备选者：Leader选举过程中的临时角色。向其他节点发送请求投票信息

四种定义：

Log（日志）：节点之间同步的信息，以只追加写的方式进行同步，解决了数据被覆盖的问题

Term（任期号）：单调递增，每个Term内最多只有一个Leader

Committed：日志被复制到多数派节点，即可认为已经被提交

Applied：日志被应用到本地状态机：执行了log中命令，修改了内存状态

Paxos协议

Paxos算法与RAFT算法区别：

Multi-Paxos 可以并发修改日志，而Raft写日志操作必须是连续的

Multi-Paxos 可以随机选主，不必最新最全的节点当选Leader

优劣势：

优势：写入并发性能高，所有节点都能写

劣势：没有一个节点有完整的最新的数据，恢复流程复杂，需要同步历史记录

总结

在本节课中我主要学习了分布式理论相关的知识，同时还跟随老师课上的实际环节深入了解了分布式系统实现过程中可能遇到的问题，但是在课上还是产生了一些疑问，后续我会通过阅读相关资料、与同学沟通的方式解决这些疑问。