分布式理论(1) | 青训营笔记

87 阅读5分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第10天。

0、重点

  • 分布式

1、分布式概述

1.1 什么是分布式

分布式系统是计算机程序的集合,这些程序利用跨多个独立计算节点的计算资源来实现共同的目标。可分为分布式计算、分布式存储和分布式数据库等。

  • 优势

    • 去中心化
    • 低成本
    • 弹性
    • 资源共享
    • 可靠性
  • 挑战

    • 普通的节点故障
    • 不可靠的网络
    • 异构的机器与硬件环境
    • 安全

1.2 常见的分布式系统

  • 分布式存储

    • Google File System(GFS):谷歌分布式文件系统
    • Ceph:统一的分布式存储系统
    • Hadoop HDFS:基于DFS架构的开源分布式文件系统
    • Zookeeper:高可用的分布式数据管理与系统协调框架
  • 分布式数据库

    • Google Spanner:google可扩展的、全球分布式的数据库
    • TiDB:开源分布式关系型数据库
    • HBase:开源Nosql数据库
    • MongoDB:文档数据库
  • 分布式计算

    • Hadoop:基于MapReduce分布式计算框架
    • Spark:在Hadoop基础之上,使用内存来存储数据
    • YARN:分布式资源调度

2、系统模型

2.1故障模型

9C4EA748AF4A40528DB7301B027C372D.jpg

8101A4321C32FBFDA455F38E25A83EF7.jpg

2.2共识和一致性

  • 客户端A读到x=0,当客户端C正在写入时,客户端A和B可能读到0或者1。但是当C写入完成后,A和B最终能读到一致的数据。我们称这样的一致性为Eventually consistent(最终一致性)

  • 当客户端A读到更新的版本x=1后,及时将消息同步给其他客户端,这样其他客户端立即能获取到x=1。我们称这样的一致性为Linearizability(线性一致性)

  • 如果要保证“线性”一致性,多个节点间势必需要进行协商,以寻求一致。这样增加了延迟,系统可用性便会受损

2.3时间和时间顺序

3、理论基础

CAP理论

选项描述
c(Consistence)一致性,指数据在多个副本之间能够保持一致的特性(严格的一致性)。
A(Availability)可用性,指系统提供的服务必须一直处于可用的状态,每次请求都能获取到非错的响应——但是不保证获取的数据为最新数据。
P(Netw ork partitioning)分区容错性,分布式系统在遇到任何网络分区故障的时候,仍然能够对外提供满足一致性和可用性的服务,除非整个网络环境都发生了故障。
  • CAP理论往往运用于数据库领域,同样可以适用于分布式存储方向

image.png

CA:放弃分区容错性,加强一致性和可用性,其实就是传统的单机数据库的选择  
AP:放弃一致性(这里说的一致性是强一致性),追求分区容错性和可用性,例如一些注重用户体验的系统
CP:放弃可用性,追求―致性和分区容错性,例如与钱财安全相关的系统

ACID理论

事务是数据库系统中非常重要的概念,它是数据库管理系统执行过程中的一个逻辑单元,它能够保证一个事务中的所有操作要么全部执行,要么全都不执行。

数据库事务拥有四个特性ACD,即分别是原子性(Atomicity),一致性(Consistency)、隔离性(Isolation))和持久性(Durability)

  • 原子性(A)。原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚。
  • 一致性(C)。一致性是指事务必须使数据库从一个一致性状态变换到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态
  • 隔离性(I)。隔离性是当多个用户并发访问数据库时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离
  • 持久性(D)。持久性是指一个事务一旦被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作。

BASE理论

Base理论是对CAP中一致性和可用性权衡的结果,其来源于对大型互联网分布式实践的总结,是基于CAP定理逐步演化而来的。其核心思想是:

Basically Available(基本可用):假设系统,出现了不可预知的故障,但还是能用,相比较正常的系统而言:响应时间上的损失,或功能上的损失

  • Soft state(软状态)︰允许系统中的数据存在中间状态,并认为该状态不影响系统的整体可用性,即允许系统在多个不同节点的数据副本存在数据延时。
  • Eventually consistent(最终一致性)︰系统能够保证在没有其他新的更新操作的情况下,数据最终一定能够达到一致的状态,因此所有客户端对系统的数据访问最终都能够获取到最新的值。