这是我参与「第五届青训营 」伴学笔记创作活动的第 11 天课程内容为:分布式理论。
分布式理论-- 现代架构基石
系统模型
故障模型
Byzantine failure:节点可以任意篡改发送给其他节点的数据
Authentication detectable byzantine failure (ADB) : Byzantine failure的特例;节点可以篡改数据,但不能伪造其他节点的数据
Performance failure:节点未在特定时间段内收到数据,即时间太早或太晚
Omission failure:节点收到数据的时间无限晚,即收不到数据
Crash failure: 在omission failure的基础上,增加了节点停止响应的假设,也即持续性地omission failure
Fail-stop failure : 在Crash failure的基础上增加了错误可检测的假设
拜占庭将军问题
引入:两将军问题(Two Generals'Problem):两支军队的将军只能派信使穿越敌方领土互相通信,以此约定讲攻时间,该问题希望求解如何在两名将军派出的任何信使都可能被俘虏的情况下,就进攻时间达成共识。
结论是,两将军问题是被证实无解的电脑通信问题,两支军队理论上永远无法达成共识。
方案一:同时发送N个信使,任何一个达到对方军队,都算成功。
方案二:设置超时时间,发送后未在一定时间返回,则加派信使。
共识与消息传递的不同:即使保证了消息传递成功,也不能保证达成共识
TCP 三次握手是在两个方向确认包的序列号,增加了超时重试,是两将军问题的一个工程解。
共识和一致性
客户端A读到x=0,当客户端C正在写入时,客户端A和B可能读到0或者1,但是当C写入完成后,A和B最终能读到一致的数据。我们称这样的一致性为Eventually consistent(最终一致性)
客户端A读到更新的版本x=1后,及时将消息同步给其他客户端,这样其他客户端 立即能获取到x=1。我们称这样的一致性为Linearizability(线性一致性)
如果要保证“线性”一致性,多个节点间势必需要进行协商,以寻求一致。这样增加了延迟,系统可用性便会受损
时间和事件顺序
我们定义“happened before”关系,记为"→"。其满足如下三个条件:
如果a和b是在相同节点上的两个事件,a在b之前发生,则定义: a→b
如果事件a表示某个节点发送某条消息,b是另一个节点接受这条消息,则有 a→b
如果有 a→b 且 b→c,则有 a→c
理论基础
CAP理论
C(Consistence) 一致性,指数据在多个副本之间能够保持一致的特性(严格的一致性)。
A(Availability) 可用性,指系统提供的服务必须一直处于可用的状态,每次请求都能获取到非错的响应--但是不保证获取的数据为最新数据。
P(Network partitioning 分区容错性,分布式系统在遇到任何网络分区故障的时候,仍然能够对外提供满足一致性和可用性的服务,除非整个网络环境都发生了故障。
CAP理论往往运用于数据库领域,同样可以适用于分布式存储方向
CA:放弃分区容错性,加强一致性和可用性,其实就是传统的单机数据库的选
择
AP:放弃一致性(这里说的一致性是强一致性),追求分区容错性和可用性,例如一些注重用户体验的系统
CP:放弃可用性,追求一致性和分区容错性,例如与钱财安全相关的系统
ACID理论
事务是数据库系统中非常重要的概念,它是数据库管理系统执行过程中的一个逻辑单元,它能够保证一个事务中的所有操作要么全部执行,要么全都不执行。
数据库事务拥有四个特性ACID,即分别是原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)和持久性( Durability)
原子性(A)。原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚。
一致性(C),一致性是指事务必须使数据库从一个一致性状态变换到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态
隔离性(I)。隔离性是当多个用户并发访问数据库时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离
持久性(D),持久性是指一个事务一日被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作
BASE 理论
Base 理论是对 CAP 中一致性和可用性权衡的结果,其来源于对大型互联网分布式实践的总结,是基于 CAP 定理逐步演化而来的。其核心思想是:
Basically Available(基本可用):假设系统,出现了不可预知的故障,但还是能用,相比较正常的系统而言:响应时间上的损失,或功能上的损失
Soft state(软状态):允许系统中的数据存在中间状态,并认为该状态不影响系统的整体可用性,即允许系统在多个不同节点的数据副本存在数据延时
Eventuallyconsistent(最终一致性):系统能够保证在没有其他新的更新操作的情况下,数据最终一定能够达到一致的状态,因此所有客户端对系统的数据访问最终都能够获取到最新的值