这是我参与「第五届青训营 」笔记创作活动的第4天。
一、本堂课重点内容:
学习分布式的概念,了解分布式的优势;学习常见的系统模型;学习分布式中用到的三个理论基础;学习常见的分布式事务;了解共识协议;最后用所学知识进行分布式实践。
二、详细知识点介绍:
(1)分布式概述
分布式系统是计算机程序的集合,这些程序利用跨多个独立计算节点的计算资源来实现共同的目标。可以分为分布式计算、分布式存储、分布式数据库等。
分布式的优势有去中心化、低成本、弹性、资源共享、可靠性高。面临的挑战有普遍的节点故障、不可靠的网络、异构的机器与硬件环境、安全问题。
常见的分布式系统有分布式存储、分布式数据库、分布式计算。
(2)系统模型
Byzantine failure: 节点可以任意篡改发送给其他节点的数据。
Authentication detectable byzantine failure:节点可以篡改数据,但不能伪造其他节点的数据。
Performance failure:节点未在特定时间段内收到数据,即时间太早或太晚。
Omission failure:节点收到数据的时间无限晚,即收不到数据。
Crash failure:在omission failure的基础上增加了节点停止响应的假设。
Fail-stop failure:在Crash failure的基础上增加了错误可检测的假设。
(3)理论基础
CAP理论:C(consistente)一致性,指数据在多个副本之间能够保持一致的特性(严格的一致性)。A(availability)可用性,指系统提供的服务必须一直处于可用的状态,每次请求都能获取到非错的响应,但不能保证获取的数据为最新数据。P(network partitioning)分区容错性,分布式系统在遇到任何网络分区故障的时候,仍然能够对外提供满足一致性和可用性的服务,除非整个网络环境都发生了故障。
ACID理论:原子性(atomicity)指事务包含的所有操作要么全部成功,要么全部失败回滚。一致性(consistency)指事务必须使数据库从一个一致性状态到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态。隔离性(isolation)是当多个用户并发访问数据库时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离。持久性(durability)指一个事物一旦被提交了,那么对数据库中的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。
BASE理论:是对CAP中一致性和可用性权衡的结果,其来源对大型互联网分布式实践的总结,是基于CAP定理逐渐演化而来的。
(4)分布式事务
二阶段提交:为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种演算法。
三阶段提交:将两阶段提交中的prepare阶段拆成两部分,cancommit和precommit机制。解决了单点故障问题和阻塞问题。
悲观锁:操作数据库时直接把数据锁住,直到操作完成后才会释放锁,上锁期间其他人不能修改数据。
乐观锁:不会上锁,只是在执行更新时判断别人是否修改数据,只有冲突时才放弃操作。
MVCC是一种并发控制的方法,维持一个数据的多个版本使读写操作没有冲突。所以既不会阻塞写,也不阻塞读。MVCC为每个修改保存一个版本,和事务的时间戳相关联。可以提高并发性能,解决脏读的问题。
(5)共识协议
Quorum NWR模型:在分布式存储系统中,有N份备份数据,一次成功的更新操作要求至少有W份数据写入成功,一次成功的读数据操作要求至少有R份数据成功读取。
RAFT协议:Raft协议是一种分布式一致性算法,即使出现部分节点故障,网络延时等情况,也不影响各节点,进而提高系统的整体可用性。
Paxos协议:写入并发性能高,所有节点都能写入。
(6)分布式实践
MapReduce:Mapper将输入分解为多个Job来并行处理,彼此间几乎没有依赖关系,Shuffler将mapper打乱,防止数据倾斜,Reducer对map阶段的结果进行全局汇总。
分布式KV:将海量结构化数据根据Key分成不同的Region,每个Region构建一个单机KV数据库,Region之间形成Raft Groups,做到强一致。
三、课后个人总结:
利用分布式理论,将系统功能模块化,且部署在不同的地方,对于底层模块,只要保持接口不变,上层系统调用底层模块将不关心其具体实现,且底层模块做内部逻辑变更,上层系统都不需要再做发布,可以极大限度的解耦合。