分布式理论(一)| 青训营笔记

216 阅读4分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 10 天

一、本堂课重点内容

本堂课的知识要点有哪些?

分布式理论

image.png

    1. 分布式概述
    1. 系统模型
    1. 理论基础
    1. 分布式事务
    1. 共识协议
    1. 分布式实践

二、详细知识点介绍

本堂课介绍了哪些知识点?

1. 分布式概述

什么是分布式

分布式系统是计算机程序的集合,这些程序利用跨多个独立计算节点的计算资源来实现共同的目标。可以分为分布式计算、分布式存储、分布式数据库等

  • 优势
      1. 去中心化
      1. 低成本
      1. 弹性
      1. 资源共享
      1. 高可靠性
  • 挑战
      1. 普遍的节点故障
      1. 不可靠的网络
      1. 异构的机器与硬件环境
      1. 安全

常见的分布式系统

  • 分布式存储
    • Google File System(GFS):Google分布式文件系统
    • Ceph:统一的分布式存储系统
    • Hadoop HDFS:基于GFS架构的开源分布式文件系统
    • Zookeeper:高可用的分布式数据管理与系统协调框架
  • 分布式数据库
    • Google Spanner
    • TiDB:开源分布式关系型数据库
    • HBase:开源NoSql数据库
    • MongoDB:文档数据库
  • 分布式计算
    • Hadoop:基于MapReduce分布式计算框架
    • Spark:在Hadoop基础之上,使用内存来存储数据
    • YARN:分布式资源调度

2. 系统模型

故障模型

  • 磁盘故障
  • 磁盘坏道、坏块
  • 服务器主板、板卡故障
  • 网络故障
  • 网络分区
  • 内存故障
  • 线缆故障
  • 内核崩溃
  • CPU故障
  • 电源故障
  • 软件故障

拜占庭将军问题

两将军问题
定义:

两支军队的将军只能派信使穿越敌方领土互相通信,以此约定进攻时间。该问题希望求解如何在两名将军派出的任何信使都可能被俘虏的情况下,就进攻时间达成共识
结论:

两将军问题是被证实无解的电脑通信问题,两支军队理论上永远无法达成共识
三将军问题:
两个“忠将”AB,一个“叛徒”C,互相传递消息,消息可能丢失,也可能被篡改,当有一个将军是“叛徒”(即出现拜占庭故障)时,整个系统无法达成一致。
由于“叛徒”C的存在,将军A和将军B获得不同的信息。这样将军A获得2票进攻1票撤退的信息,将军B获得1票进攻2票撤退的信息,产生了不一致
四将军问题:

将军D作为消息分发中枢,约定如果没收到消息则执行撤退

步骤:

如果D为“叛徒”,ABC无论收到任何消息,总能达成一致
D为“忠将”,ABC有2人将D的消息进行正确的传递,同样能保证最终决策符合大多数。

进而能够证明,当有3m+1个将军,m个“叛徒”时,可以进行m轮协商,最终达成一致

共识和一致性

  • 不同客户端A和B看到客户端C写入,因为时机的不同,产生数据读取的偏差。引导出最终一致性的详细说明
  • 要保证所有客户端看到相同的值,需要多节点进行“协商”,达成共识,来保证线性一致性
  • 一致性和可用性是对矛盾

时间和事件顺序

1978年Leslie Lamport发表《Time, Clocks, and the Ordering of Events in a Distributed System》

  • 定义了计算机系统中的时间和事件顺序,引入happened before和并发的定义,可以以此对分布式系统中的事件进行推导
  • 根据上述推导,创造了Lamport逻辑时钟的概念,这个概念在分布式理论中具有革命性的意义,帮助我们在一系列分布式事件当中梳理出逻辑的先后关系。利用逻辑时钟,我们可以对整个系统中的事件进行全序排序

作者:青训营官方账号
链接:juejin.cn/post/719336…
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

三、引用参考