这是我参与「第五届青训营 」伴学笔记创作活动的第 5 天
简介
分布式系统主要包括以下内容
分布式存储:GFS分布式文件系统、Ceph统一的分布式存储架构、HDFS分布式文件系统、zookeeper分布式数据管理与系统协调框架
分布式数据库:Spanner、TiDB关系型数据库、HBase Nosql数据库、MongoDB文档数据库
分布式计算:Hadoop 基于MapReduce的计算框架、Spark 使用内存存储数据、Yarn 分布式资源调度
系统模型
根据对故障处理的难易程度由高到低进行划分为六种模型如下:
从四个维度去评价:正确性、时间、状态、原因
Byzantine failure:节点可以任意篡改发送给其他节点的数据,通常发生在网络或者安全出问题时,最难处理
Authentication detectable byzantine failure (ADB):
Byzantine failure的特例;节点可以篡改数据,但不能伪造其他节点的数据,通常发生在内存或者磁盘出问题时
Performance failure:节点未在特定时间段内收到数据,即时间太早或太晚,切换其他节点处理
Omission failure:节点收到数据的时间无限晚,即收不到数据
Crash failure:在omission failure的基础上,增加了节点停止响应的假设,也即持续性地omission failure
Fail-stop failure:在Crash failure的基础上增加了错误可检测的假设 知道状态和原因
拜占庭将军问题
两支军队的将军只能派信使穿越敌方领土互相通信,以此约定进攻时间。该问题希望求解如何在两名将军派出的任何信使都可能被俘虏(丢包)的情况下,就进攻时间达成共识
- 将军A发送消息发给将军B,将军B收到
- 将军B将确认收到的消息发给将军A,将军A知道自己的消息被收到
- 将军A发送自己知道将军B收到的消息给将军B,两方才会同时进攻
最终一致性
写请求和读请求并发时可能读到旧值,只有最终写完才能读到一致结果
线性一致性
一旦某个客户端读到新值,立刻会同步到其他客户端,多节点协商增加了延迟
三大分布式理论
CAP理论
-
C(Consistence)
一致性,指数据在多个副本之间 能够保持一致的特性(严格的一致性)。 -
A(Availability)
可用性,指系统提供的服务必须 直处于可用的状态,每次请求都能获取到非错的响应,但是不保证获取的数据为最新数据。 -
P(Network partitioning)
分区容错性,分布式系统在遇到任何网络分区故障的时候,仍然能够对外提供满足一致性和可用性
上述三个特性只能满足其中两个,于是诞生三种系统
-
CA:放弃分区容错性,加强一致性和可用性,其实就是传统的单机数据库的选择 -
AP:放弃一致性(这里说的一致性是强一致性),追求分区容错性和可用性例如一些注重用户体验的系统 -
CP:放弃可用性,追求一致性和分区容错性,例如与钱财安全相关的系统
左图保证可用性,但是不保证一致性;右图损失可用性。
针对上述问题的改进,Master节点负责管理处理,Backup节点负责备份。保证了在Master节点失效的可用性和一致性。这也是目前大多数数据库同步的方法。
ACID理论
事务是数据库管理系统打执行过程中的一个逻辑单元,它能够保证一个事务中的所有操作要么全部执行,要么全都不执行。
-
原子性(Atomicity)。原子性是指事务包含的所有操作要么全部成功力,要么全部失败回滚,
关注的是操作。 -
一致性(Consistency)。一致性是指事务必须使数据库从一个一致性状状态变换到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态。
和分布式一致性不同的是,数据库的一致性指的是执行操作前后状态相同,例如两个账户转账,转账前后账户总额相同。而分布式一致性指在同一份数据在不同节点都是同一状态。 -
隔离性(lsolation)。隔离性是当多个用户并发访问数据库时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离
-
持久性(Durability)。持久性是指一个事务一旦被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。
BASE理论
Base 理论针对AP系统尽可能保证可用性,放弃一致性。
Basically Available(基本可用):假设系统,出现了不可预知的故障,但还是能用,相比较正常的系统而言:响应时间上的损失,或功能上的损失
Soft state(软状态):允许系统中的数据存在中间状态,并认为该状态不影响系统的整体可用性,即允许系统在多个不同节点的数据副本存在数据延时。
Eventuallvconsistent(最终一致性):系统能够保证在没有其他新的更新操作的情况下,数据最终一定能够达到一致的状态。因此所有客户端对系统的数据访问最终都能够获取到最新的值。