这是我参与「第五届青训营 」伴学笔记创作活动的第 9 天
分布式理论
分布式
- 分布式系统定义:跨多个节点的计算机程序的集合
- 使用分布式系统的五大优势:去中心化、低成本、弹性、资源共享、可靠性高
- 分布式系统的挑战:故障、网络、环境、安全
- 使用者视角:大规模计算存储的述求
- 学习者视角:后端开发必备技能
分布式系统
- 分布式存储:GFS、Ceph、HDFS、Zookeeper
- 分布式数据库:Spanner、TiDB、HBase、MangoDB
- 分布式计算:Hadoop、YARN、Spark
系统模型
故障模型
六种故障模型
从处理的难易程度分类
- Byzantine failure:节点可以任意篡改发送给其他节点的数据,是最难处理的故障
- Authrntication detectable byzantine failure(ADB):节点可以篡改数据,但不能伪造其他节点的数据
- Performance failure:节点未在特定时间段内收到数据,即时间太早或太晚
- Omission failure:节点收到数据的时间无限晚,即收不到数据
- Crash failure:节点停止响应,持续性的故障
- Fail-stop failure:错误可检测,是最容易处理的故障
故障模型举例
按照模型分类
- 磁盘、主板、交换机、网络分区、CPU、内存、线缆、电源等故障详细说明
共识和一致性
- 不同的客户端 A 和 B 看到客户端 C 写入,因为时机的不同,产生数据读取的偏差。引导出最终一致性的详细说明
- 要保证所有客户端看到相同的值,需要多个节点进行协商,达成共识,来保证线性一致性
- 一致性和可用性是对矛盾
理论基础
CAP 理论
-
CAP 的定义,分别代表了一致性、可用性、分区容错性,三者无法同时达到
-
CAP 诞生了三类系统:
- CA 系统:传统数据库的代表
- AP 系统:放弃强一致性、保证高可用,不少nosql存储系统采用
- CP 系统:放弃可用性,保证数据一致性
-
不同的 CAP 系统来带的影响
- CP 系统:故障发生时,为了避免读到不一致的数据,可能拒绝访问
- AP 系统:故障发生时,为了保证可用性,允许不同进程督导不同的数据
-
通过故障转移的方式,做一个相对较优的解决方式
- 允许一个进程作为 Master,其他进程作为 Backup,当故障时将请求转移个 Backup 进行处理
ACID 理论
- ACID 理论时针对 CA 系统可言的,通常再数据库中具有广泛意义
- 事务是数据库系统中非常重要的概念,他是数据库管理系统执行管理中的一个逻辑单元,它能够保证一个事务中的所有操作要么全部执行,要么全部不执行
- 数据库事务用用四个特性 ACID:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性(Durability)
BASE 理论
-
BASE 理论是针对 AP 系统而言的,其来源于对大型互联网分布式实践的总结
- Basically Available(基本可用):假设系统出现了不可预知的故障但是仍然能用
- Soft state(软状态):允许系统中的数据存在中间状态,并认为该状态不影响系统的整体可用性
- Eventually consistent(最终一致性):数据最终一定能够到达一致的状态
分布式事务
二阶段提交
-
定义
- 二阶段提交:为了使基于分布式系统框架下的所有节点在进行事务提交时保持一致性而设计的一种演算法
-
三个假设
- 协调者和参与者进行通信
- 预写式日志被保持在可靠的存储设备上
- 所有节点不会永久性保存,即使损坏后仍然可以恢复
-
正常流程
- Prepare 阶段 和 Commit 阶段
-
异常流程
- Prepare 阶段失败 -> 回滚
- 协调者宕机 -> 重新启用新的协调者
- 双故障重启 -> 数据库管理员介入
-
二阶段提交需要解决的问题
- 性能问题:需要多次网络通信,资源需要等待并锁定
- 新协调者:如何确定状态选出新协调者
- Commit 阶段网络分区带来的数据不一致:非所有节点都收到 Commit 请求
三阶段提交
- 针对两阶段提交的补充,将两阶段提交中的 Prepare 阶段,拆成两部分:CanCommit 和 PreCommit 机制
- CanCommit 阶段:询问是否可以执行
- PreCommit 阶段:重新确认是否可以执行
- DoCommit 阶段:向所有人提交事务
MVCC
-
MVCC:多版本并发控制的方法。维持一个数据的多个版本使读写操作没有冲突,所以既不会阻塞写,也不阻塞读。提高并发性能的同时也解决了脏读的问题
-
悲观锁和乐观锁
- 悲观锁:操作数据时直接把数据锁定,直到操作完成后才会释放锁;上锁期间其他人不能修改数据
- 乐观锁:不会上锁,只是在执行更新时判断别人是否修改数据,只有冲突时才放弃操作
-
版本的选取:使用物理时钟或逻辑时钟
- 物理时钟:提供 TrueTime API,有 Master 节点维持一个绝对时间,保证各个服务器之间时钟误差控制在7ms以内
- 逻辑时钟:中心化授时的方式——时间戳预言机(TSO),好处的无需硬件的支持
共识协议
Quorum NWR 模型
-
三要素:
- N:在分布式存储系统中,有多少份备份数据
- W:代表一次成功的更新操作要求至少有 w 份数据写入成功
- R:代表一次成功的读数据操作要求至少有 R 份数据成功读取
- 为了保证强一致性,需要保证 W + R > N
-
Quorum NWR 模型将 CAP 的选择交给用户,是一种简化版的一致性模型
-
引起的并发更新问题
- 如果允许数据被覆盖,则并发容易引起一致性问题
RAFT 协议
-
概述
- Raft 协议是一种分布式一致性算法(共识算法),即使出现部分阶段故障,网络延时等情况,也不影响各个节点,进而提高系统的整体可用性,Raft 时使用较为广泛的分布式协议
-
三种角色
- Leader - 领导者:Leader 负责处理所有的客户端请求,并向 Follower 同步请求日志,当日志同步到大多数节点上后,通知 Follower 提交日志
- Follower - 跟随者:接收并持久化 Leader 同步的日志,在 Leader 告知日志可以提交后,提交日志
- Candidate - 备选者:Leader 选举过程总的临时角色,向其他节点发送请求投票信息
-
四种定义
- Log(日志):节点之间同步的信息,以之追加写的方式进行同步,解决了数据被覆盖的问题
- Term(任期号):单调递增,每个 Term 内最多只有一个 Leader
- Committed:日志被复制到多数派节点,即可认为已经被提交
- Applied:日志被应用到本地状态机,执行了 log 中命令,修改了内存状态
-
Leader 选举过程
-
初始全部为 Follower
-
Current Term + 1
-
选举自己
-
向其他参与者发起 RequestVote 气你个球,retry 直到
- 收到多数派请求,成为 Leader,并发送心跳
- 收到其他 Leader 的请求,转为 Follower,更新自己的 Term
- 收到部分,但未达到多数派,选举超市,随机 timeout 开始下一轮
-
-
Log Replication 过程
- 新 Leader 产生,Leader 和 Follower 不同步,Leader 强制覆盖 Followers 的不同步日志
-
切主:当 Leader 出现问题时,就需要进行重新选举
- Leader 发现失去 Follower 的响应,失去 Leader 身份
- 两个 Follower 之间一段时间未收到心跳,重新进行选举,选出新的 Leader,此时发生了切主
- Leader 自杀重启,以 Follower 的身份加入进来
-
State 读:
- 发生 Leader 切换,old leader 收到了读请求,如果直接响应,可能会有 Stale Read
Paxos 协议
-
Paxos 算法和 Raft 算法区别
- Multi-Paxos 可以并发修改日志,而 Raft 写日志操作必须是连续的
- Multi-Paxos 可以随机选主,不必最新最全的节点当选 Leader
-
优劣势
- 优势:写入并发性能高,所有节点都能写
- 劣势:没有一个节点有完整的最新的数据,恢复流程复杂,需要同步历史记录