分布式理论 | 青训营笔记

117 阅读8分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 5 天

分布式理论

分布式概述

分布式系统是计算机程序的集合,这些程序利用跨多个独立计算节点的计算资源来实现共同的目标。可以分为分布式计算、分布式存储、分布式数据库等。

优势

去中心化

低成本

弹性

资源共享

可靠性高:多副本冗余存储

挑战

普遍的节点故障

不可靠的网络:需要处理更多的状态

异构的机器与硬件环境:性能不可预测

安全

原因

数据爆炸,对存储和计算有大规模运用的述求

成本低,构建在廉价服务器之上

常见分布式系统

分布式存储

Google File System : google分布式文件系统

Ceph :统一的分布式存储系统

HadoopHDFS:基于GFS架构的开源分布式文件系统

Zookeeper:高可用的分布式数据管理与系统协调框架

分布式数据库

Google Spanner:Google可扩展的、全球分布式的数据库

TiDB:开源分布式关系型数据库

HBase:开源Nosql数据库

MongoDB:文档数据库

分布式计算

Hadoop:基于MapReduce分布式计算框架

Spark:在Hadoop基础上,使用内存来存储数据

YARN:分布式资源调度

系统模型

故障模型

解决难度从高到低,一般不解决Byzantine

Byzantine failure:节点可以任意篡改发送给其他节点数据

ADB:节点可以篡改数据,但不能伪造其他节点的数据

Performance failure:节点未在特定时间段内收到数据,即时间太早或太晚

Omission failure:节点收到的数据的时间无限晚,即收不到数据

Crash failure:在omission failure的基础上,增加了节点停止响应的假设,也即持续性地omission failure

Fail-stop failure:在Crash failure的基础上增加了错误可检测的假设

故障描述可能的错误类型
磁盘故障如:磁头不寻道、盘片不转、磁介质损伤等。年方式率1-2%Fail-stop
磁盘坏道、坏块磁头划伤引起坏道,或受宇宙射线影响晶体管产生位反转Fail-stop,ADB
服务器主板、板卡故障可能是风扇故障,或灰尘引起的短路,或SCSI/RAID卡造成的死机Crash
网络故障电源故障、背板故障等,网卡位反转、网络流量大造成大量丢包等Byzantine,Omission
网络分区网络引起节点形成不同的子集,子集中网络相通,子集间网络不同Performance
内存故障内存出错造成的数据被篡改,分为UE、CE两种ADB
线缆故障服务器光模块频繁up或downPerformance,Omission
内核故障内核内部的致命错误,产生kernel panicCrash
CPU故障年故障率接近1%Omission、Crash
电源故障服务器失去电力支撑Omission
软件故障如:进程crash、内存踩坏、状态不一致、配置错误、软件bug等Byzantine

拜占庭将军问题

CAP理论

C(Consistence):一致性,指数据在多个副本之间能够保持一致的特性(严格一致性)

A(Availability):可用性,指系统提供的服务必须一直处于可用的状态,每次请求都能够获取到非错的相应,但不保证获取的数据为最新数据。

P(Network partitioning)分区容错性,分布式系统在遇到任务网络分区故障的时候,仍然能够对外提供满足一致性和可用性的服务,除非整个网络环境都发生了故障

CAP理论往往用于数据库领域,同样可以适用于分布式存储方向

CA:放弃分区容错性,加强一致性和可用性,其实就是传统的单机数据库的选择

AP:放弃一致性,例如注重用户体验的系统

CP:放弃可用性,例如与钱财相关的系统

ACID理论

事务是数据库凶弹中非常重要的概念,它是数据库管理系统执行过程中的一个逻辑单元,它能够保证一个事务的所有操作要么全部执行,要么全部不执行。

原子性(Atomicity):事务包含的操作要么全部成功,要么全部失败回滚

一致性(Contistency):事务必须使数据库从一个一致性状态变换到另一个一致性状态。

隔离性(Isolation):多个用户并发访问数据库时,数据库为每一个用户开启事务,不能被其他事务操作所干扰,多个并发事务之间要相互隔离。

持久性(Durablitiy):一个事务一旦被提交,那么对数据库中数据的改变是永久的。

BASE理论

BASE理论对CAP中一致性和可用性权衡的结果,其来源对大型互联网分布式实践的总结,是基于CAP定理逐步演化而来的。

核心思想

Basically Available(基本可用):假设系统,出现了不可预知的故障,但还是能用,相比较正常的系统而言:响应时间上的损失,或功能上的损失

Soft state(软状态):允许系统处于中间状态,并认为该状态不影响系统的整体可用性,即允许系统在多个不同节点的数据副本存在数据延时。

Eventually consistent(最终一致性):系统能够保证在没有其他新的更新操作的情况下,数据最终一定能够达到一致的状态。

分布式事务

两阶段提交

三个假设

1、引入协调者和参与者,互相进行网络通信

2、所有节点都采用预写式日志,且日志被写入后即被保持在可靠的存储设备上

3、所有节点不会永久性损失,即时损坏后仍然可以恢复

三阶段提交

解决阻塞问题,通过判断是否可以commit实现

MVCC

悲观锁:操作数据时直接把数据锁住,直到操作完成后才会释放锁;上锁期间其他人不能修改数据

乐观锁:不会上锁,只是在执行更新时判断别人是否修改数据,只有冲突时才放弃操作

MVCC是一种并发控制的方法,维持一个数据的多个版本使读写操作没有冲突。所以既不会阻塞写,也不会阻塞读。MVCC为每个修改保存一个版本,和事务的时间戳关联。可以提高并发性能,解决脏读的问题。

在Spanner论文里通过TrueTime API提供一个物理时钟的方式。

另一种方式:时间戳预言机

共识协议

Quorum NWR模型

三要素

N:在分布式存储系统中,有多少份备份数据

W:代表一次成功的更新操作要求至少有w份数据写入成功

R:代表一个成功的读数据操作要求至少有R份数据成功读取

为保证强一致性,需要保证W+R>N

RAFT协议

Raft协议是一种分布式一致性算法(共识算法),即时出现部分节点故障,网络延时等情况,也不影响各节点,进而提高系统的整体可用性。Raft是使用较为广泛的分布式协议。一定意义上将,Raft也使用了Quorum机制。

三种角色:

Leader,通常一个系统中是一主多从。Leader负责处理所有的客户端请求,并向Follower同步请求日志,当日志同步到大多数节点上后,通知Follower提交日志。

Follower,不会发送任何请求。接受并持久化Leader同步的日志,在Leader报告日志可以提交后,提交日志。当Leader出现故障时,主动推荐自己为Candidate。

Candidate,Leader选举过程中的临时角色。向其他节点发送请求投票信息。如果获得大多数选票则晋升为Leader。

Log(日志):节点之间同步的信息,以只最佳写的方式同步进行

Term(任期号):单调递增,每个Term内最多只有一个Leader

Committed:日志被复制到多数派节点,即可认为已经被提交

Leader选举过程:

1、初始全部为Follower

2、Current Term+1

3、选举自己

4、向其他参与者发起RequestVote请求,retry直到

  • 收到多数派请求,称为Leader,并发送心跳
  • 收到其他Leader请求,转为Follower,更新自己的Term
  • 收到部分,但未达到大多数派,选举超时,随机timeout开始下一轮

两个规则

在一个任期内每个参与者最多投一票(持久化)

要称为Leader,必须拿到多数选票

切主

当Leader出现问题时,就需要重新选举

Stale读

解决多主问题,通过等待双倍超时时间

Paxos协议

与Raft算法的区别

可以并发修改日志,而Raft写日志操作必须连续

可以随机选主,不必最新最全的节点为Leader