分布式理论(一) | 青训营笔记

120 阅读8分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 10 天

一、本节课重点内容

1. 分布式概述

2. 系统模型

3. 理论基础

二、详细知识点介绍

1. 什么是分布式

定义

  • 分布式系统是计算机程序的集合,这些程序利用跨多个独立计算节点的计算资源来实现共同的目标。可以分为分布式计算、分布式存储、分布式数据等 image.png 优势
  • 去中心化
  • 低成本
  • 弹性
  • 资源共享
  • 可靠性高

挑战

  • 普遍的节点故障
  • 不可靠的网络
  • 异构的机器与硬件环境
  • 安全

2. Why-How-What

使用者视角

  • Why
    • 数据爆炸,对存储和计算有大规模运用的述求
    • 成本低,构建在廉价服务器之上
  • How
    • 分布式框架
    • 成熟的分布式系统
  • What
    • 理清规模,负载,一致性要求等

学习者视角

  • Why
    • 后端开发必备技能
    • 帮助理解后台服务器之间协作的机理
  • How
    • 掌握分布式理论
    • 了解一致性协议
  • What
    • 把要点深入展开,针对难点搜索互联网资料进行学习
    • 将所学知识运用于实践

3. 常见的分布式系统

分布式存储

  • Google File System(GFS):Google分布式文件系统
  • Ceph:统一的分布式存储系统
  • Hadoop HDFS:基于GFS架构的开源分布式文件系统
  • Zookeeper:高可用的分布式数据管理与系统协调框架

分布式数据库

  • Google Spanner:Google可扩展的、全球分布式的数据库
  • TiDB:开源分布式关系型数据库
  • HBase:开源Nosql数据库
  • MongoDB:文档数据库

分布式计算

  • Hadoop:基于MapReduce分布式计算框架
  • Spark:在Hadoop基础之上,使用内存来存储数据
  • YARN:分布式资源调度

4. 故障模型

  • Byzantine failure:节点可以任意篡改发送给其他节点的数据
  • Authentication detectable byzantine failure:(ADB): Byzantine failure的特例;节点可以篡改数据,但不能伪造其他节点的数据
  • Performance failure:节点未在特定时间段内收到数据,即时间太早或太晚
  • Omission failure:节点收到数据的时间无限晚,即收不到数据
  • Crash failure:在omission failure的基础上,增加了节点停止响应的假设,也即持续性地omission failure
  • Fail-stop failure:在Crash failure的基础上增加了错误可检测的假设 image.png

5. 拜占庭将军问题

两将军问题(Two Generals' Problem):两支军队的将军只能派信使穿越故力领土互相通信,以此约定进攻时间。该问题希望求解如何在两名将军派出的任何信使都可能被俘虏的情况下,就进攻时间达成共识。

结论是,两将军问题是被证实无解的电脑通信问题,两支军队理论上永远无法达成共识。

image.png

  • 方案一:同时发送N个信使,任何一个达到对方军队,都算成功。
  • 方案二:设置超时时间,发送后未在一定时间返回,则加派信使。
  • 共识与消息传递的不同:即使保证了消息传递成功,也不能保证达成共识
  • TCP三次握手是在两个方向确认包的序列号,增加了超时重试,是两将军问题的一个工程解。

拜占庭将军考虑更加普适的场景,例如3个将军ABC互相传递消息,消息可能丢失,也可能被篡改,当有一个将军是“叛徒”(即出现拜占庭故障)时,整个系统无法达成一致。

如果没有“叛徒”,无论各自观察到怎样的敌情,总能达成一致的行动。

由于“叛徒”C的存在,将军A和将军B获得不同的信息。这样将军A获得2票进攻1票撤退的信息,将军B获得1票进攻2票撤退的信息,产生了不一致。

考虑当4个将军,只有1个叛徒的场景。将军D作为消息分发中枢,约定如果没收到消息则执行撤退。

如果D为“叛徒”,ABC无论收到任何消息,总能达成一致

D为“忠将”,ABC有2人将D的消息进行正确的传递,同样能保证最终决策符合大多数。进而能够证明,当有3m+1个将军,其中m个“叛徒”时,可以增加m轮协商,最终达成—致

6. 共识和一致性

最终一致性

  • 客户端A读到x=0,当客户端C正在写入时,客户端A和B可能读到O或者1。但是当C写入完成后,A和B最终能读到一致的数据。我们称这样的一致性为Eventually consistent(最终一致性) image.png 线性一致性

  • 当客户端A读到更新的版本x=1后,及时将消息同步给其他客户端,这样其他客户端立即能获取到x=1。我们称这样的一致性为Linearizability(线性一致性) image.png

  • 如果要保证“线性”一致性,多个节点间势必需要进行协商,以寻求一致。这样增加了延迟,系统可用性便会受损

7. 时间和事件顺序

定义

  • 我们定义“happened before”关系,记为"→"。其满足如下三个条件:
    • 如果a和 b是在相同节点上的两个事件,a在b之前发生,则定义:a→b
    • 如果事件a表示某个节点发送某条消息,b是另一个节点接收这条消息,则有a→b
    • 如果有a→b 且b→c,则有a→c
  • 当且仅当ab 且b>a时,我们称两个事件为并发的(concurrent)。 image.png
  • 我们不难在图中找到若干满足条件的事件对,例如p1→r4,其由p1→q2→q4→r3→r4推导而来

Lamport逻辑时钟

  • 对于每一个节点Pi我们定义时钟Ci为一个函数,它为任意的事件a赋值编号为Ci(a)
  • 如果a和b是在相同节点Pi上的两个事件,a在b之前发生,则有Ci(a)<Ci(b)
  • 如果事件a表示节点Pi发送某条消息,b表示节点Pj接受这条消息,则有Ci(a)<Cj(b)
  • 于是我们可以在时空图中加入类似右图虚线所示的“tick line"
  • 在同一节点内的连续两个事件之间,至少要有一条tick line
  • 利用逻辑时钟,我们可以对整个系统中的事件进行全序排序 image.png

8. CAP理论

image.png

  • CAP理论往往运用于数据库领域,同样可以适用于分布式存储方向
  • CA:放弃分区容错性,加强一致性和可用性,其实就是传统的单机数据库的选择
  • AP:放弃一致性(这里说的一致性是强一致性),追求分区容错性和可用性,例如一些注重用户体验的系统
  • CP:放弃可用性,追求一致性和分区容错性,例如与钱财安全相关的系统

image.png

  • 在网络发生分区的情况下,我们必须在可用性和一致性之间做出选择。近似解决办法:把故障节点的负载转移给备用节点负责。下图演示了如何做故障转移: image.png

9. ACID理论

  • 事务是数据库系统中非常重要的概念,它是数据库管理系统执行过程中的一个逻辑单元,它能够保证一个事务中的所有操作要么全部执行,要么全都不执行。
  • 数据库事务拥有四个特性ACID,即分别是原子性(Atomicity)、一致性(Consistency)、隔离性(lsolation)和持久性(Durability)
  • 原子性(A)。原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚。
  • 一致性(C)。一致性是指事务必须使数据库从一个一致性状态变换到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态
  • 隔离性(I)。隔离性是当多个用户并发访问数据库时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离
  • 持久性(D)。持久性是指一个事务一旦被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。

10. BASE理论

  • Base理论是对CAP中一致性和可用性权衡的结果,其来源于对大型互联网分布式实践的总结,是基于CAP定理逐步演化而来的。其核心思想是:
  • Basically Available(基本可用):假设系统,出现了不可预知的故障,但还是能用,相比较正常的系统而言:响应时间上的损失,或功能上的损失
  • Soft state(软状态)︰允许系统中的数据存在中间状态,并认为该状态不影响系统的整体可用性,即允许系统在多个不同节点的数据副本存在数据延时。
  • Eventually consistent(最终一致性)︰系统能够保证在没有其他新的更新操作的情况下,数据最终一定能够达到一致的状态,因此所有客户端对系统的数据访问最终都能够获取到最新的值。

三、课后个人总结

经过本节课的学习,对分布式理论有了初步的了解。对分布式理论的概念和一些理论基础有了认识。分布式理论在后端开发中非常重要,能够满足大部分开发的需求,因此,在课下还要多学习分布式理论技术,尽早将其运用到实践之中