这是我参与「第五届青训营」伴学笔记创作活动的第 12 天

分布式理论

今日学习：

分布式理论
各种理论
分布式系统
分布式事务

概述

分布式系统是计算机程序的集合，这些程序利用跨多个独立计算节点的计算资源来实现共同的目标。可以分为分布式计算、分布式存储、分布式数据库等。

使用者

数据爆炸，有大规模运用的述求
成本低，构建在廉价服务器上

学习者

后端开发必备技能
帮助理解后台服务器协作的机理

分布式系统

分布式存储

分布式数据库

分布式计算

故障模型

Bzantine failure：节点可以任意篡改发送其他的节点的数据
Authentication detecatable byzantine failure:节点可以篡改数据，但不能伪造其他节点的数据
Performance failure：节点未在特点时间段收到数据，即时间太早或太晚
Omission failure：节点收到的数据无限晚
Crash failure：在omission failure 的基础上，增加了节点停止响应的假设，即持续性的omissions failure
Fail-Stop faliure：在Crash failure的基础上添加了错误可检测的假设

拜占庭将军问题

拜占庭将军考虑更加普适的场景，例如3个将军ABC互相传递消息，消息可能丢失，也可能被篡改，当有一个将军是“叛徒”(即出现拜占庭故障)时，整个系统无法达成一致。如果没有“叛徒”，无论各自观察到怎样的敌情，总能达成一致的行动。由于“叛徒”C的存在，将军A和将军B获得不同的信息。这样将军A获得2票进攻1票撤退的信息，将军B获得1票进攻2票撤退的信息，产生了不一致。考虑当4个将军，只有1个叛徒的场景。将军D作为消息分发中枢，约定如果没收到消息则执行撤退。 -如果D为“叛徒”，ABC无论收到任何消息，总能达成一致

D为“忠将”，ABC有2人将D的消息进行正确的传递，同样能保证最终决策符合大多数。进而能够证明，当有3m+1个将军，其中m个“叛徒”时，可以增加m轮协商，最终达成—致

共识和一致性

客户端A读到x=0，当客户端C正在写入时，客户端A和B可能读到0或者1。但是当C写入完成后，A和B最终能读到一致的数据。我们称这样的一致性为Eventually consistent(最终—致性) 当客户端A读到更新的版本x=1后，及时将消息同步给其他客户端，这样其他客户端立即能获取到x=1。我们称这样的一致性为Linearizability(线性—致性) 如果要保证“线性”—致性，多个节点间势必需要进行协商，以寻求一致。这样增加了延迟，系统可用性便会受损

时间和事件顺序

1978年Leslie Lamport发表在Communications of the ACM上的论文Time, Clocks,and the Ordering of Events in a Distributed System 我们定义“happened before”关系，记为"→"。其满足如下三个条件: -如果a和b是在相同节点上的两个事件，a在b之前发生，则定义:a→b -如果事件a表示某个节点发送某条消息，b是另一个节点接受这条消息,则有a→b -如果有a→b 且b→c，则有a→c 当且仅当a>b 且b>a时，我们称两个事件为并发的(concurrent), 我们不难在图中找到若干满足条件的事件对，例如p1→r4，其由p1→q2→q4→r3→r4推导而来

CAP理论

C->consistency 一致性

A->Availability 可用性

P-> NetWork partition 分区容错性

CAP理论往往运用于数据库领域，同样可以适用于分布式存储方向 CA:放弃分区容错性，加强─致性和可用性，其实就是传统的单机数据库的选择 AP:放弃一致性(这里说的一致性是强─致性)，追求分区容错性和可用性，例如—些注重用户体验的系统 CP:放弃可用性，追求一致性和分区容错性，例如与钱财安全相关的系统

ACID理论

事务是数据库系统中非常重要的概念，它是数据库管理系统执行过程中的一个逻辑单元，它能够保证一个事务中的所有操作要么全部执行，要么全都不执行。数据库事务拥有四个特性ACID，即分别是原子性（Atomicity)、一致性(Consistency)、隔离性(lsolation)和持久性(Durability) ate

原子性(A)。原子性是指事务包含的所有操作要么全部成功，要么全部失败回滚。
一致性(C)。一致性是指事务必须使数据库从一个—致性状态变换到另一个一致性状态，也就是说一个事务执行之前和执行之后都必须处于—致性状态
隔离性(I)。隔离性是当多个用户并发访问数据库时，数据库为每一个用户开启的事务，不能被其他事务的操作所干扰，多个并发事务之间要相互隔离
持久性(D)。持久性是指一个事务一旦被提交了，那么对数据库中的数据的改变就是永久性的，即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。

数据库一致性指的是事务的一致性

CAP理论的一致性指的是线性一致性

BASE理论

Base理论是对CAP中一致性和可用性权衡的结果，其来源于对大型互联网分布式实践的总结，是基于CAP定理逐步演化而来的。其核心思想是:

Basically Available(基本可用):假设系统，出现了不可预知的故障，但还是能用，相比较正常的系统而言:响应时间上的损失,或功能上的损失
Soft state(软状态)︰允许系统中的数据存在中间状态，并认为该状态不影响系统的整体可用性，即允许系统在多个不同节点的数据副本存在数据延时。
Eventually consistent(最终一致性)︰系统能够保证在没有其他新的更新操作的情况下，数据最终一定能够达到一致的状态，因此所有客户端对系统的数据访问最终都能够获取到最新的值。

分布式事务

二阶段提交

定义：
- 二阶段提交（Two-phase Commit）：为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种演算法。
三个假设：
- 协调者和参与者进行通信
- 预写式日志被保持在可靠的存储设备上
- 所有节点不会永久性损坏，即使损坏后仍然可以恢复
正常流程：Prepare阶段和Commit阶段
异常流程：Prepare阶段失败 -> 回滚；协调者宕机 -> 重新启用新的协调者；双故障重启 -> 数据库管理员介入
两阶段提交需解决的问题：
- 性能问题：需要多次网络通信，资源需要等待并锁定
- 协调者单点故障问题：新协调者：如何确定状态选出新协调者
- Commit阶段网络分区带来的数据不一致：非所有节点都收到Commit请求

三阶段提交

针对两阶段提交的补充，将两阶段提交中的Prepare阶段，拆成两部分：CanCommit和PreCommit机制
CanCommit阶段：询问是否可以执行；PreCommit阶段：重新确认是否可以执行
DoCommit阶段：向所有人提交事务

悲观锁和乐观锁

悲观锁：操作数据时直接把数据锁住，直到操作完成后才会释放锁；上锁期间其他人不能修改数据
乐观锁：不会上锁，只是在执行更新时判断别人是否修改数据，只有冲突时才放弃操作

操作数据库的时候加锁
1.如果系统并发量不大且不允许脏读，可以使用悲观锁解决并发问题。
2.如果系统并发非常大，悲观锁会带来很大性能问题，所以一般采用乐观锁。
3.如果系统读比较多，写比较少，也可以使用乐观锁，可以提高吞吐量。
锁对于数据库是一种保护

课后个人总结：

**这次录播课程非常的难，也非常的抽象，理论非常先进，一些概率也非常的新，学校不可能教学这些知识，设计思路在网上也很少见到。涉及到了计算机的算法。**上述笔记内容大部分来自课件和发的课前预习

分布式理论 ｜ 青训营笔记