分布式理论 - 现代架构基石| 青训营笔记

75 阅读3分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 8 天

前言

这是小白初接触到Go语言的内容,本课程分布式理论-现代架构基石。

主要讲述自动内存管理、Go 内存管理及优化、编译器和静态分析、Go编译器优化。

(1)分布式概述

1.什么是分布式

分布式系统是计算机程序的集合,这些程序利用跨多个独立计算节点的计算资源来实现共同的目标。可以分为分布式计算、分布式存储、分布式数据库等。

2.常见的分布式系统

分布式存储

  1. Google File System (GFS) : google分布式文件系统

  2. Ceph:统-的分布式存储系统

  3. Hadoop HDFS:基于GFS架构的开源分布式文件系统

  4. Zookeeper:高可用的分布式数据管理与系统协调框架

分布式数据库

  1. Google Spanner: google可扩展的、全球分布式的数据库。

  2. TiDB:开源分布式关系型数据库

  3. HBase:开源Nosql数据库

  4. MongoDB:文档数据库

分布式计算

  1. Hadoop:基于MapReduce分布式计算框架

  2. Spark:在Hadoop基础之上,使用内存来存储数据

  3. YARN:分布式资源调度

(2)系统模型

1.故障模型

拜占庭将军问题

引入:两将军问题(Two Generals' Problem) :两支军队的将军只能派信使穿越敌方领土互相通信,以此约定进攻时间。该问题希望求解如何在两名将军派出的任何信使都可能被俘虏的情况下,就进攻时间达成共识。

2.理论基础

2.1 CAP理论

CAP理论往往运用于数据库领域,同样可以适用于分布式存储方向

CA:放弃分区容错性,加强一致性和可用性,其实就是传统的单机数据库的选择

AP:放弃-致性(这里说的一致性是强一致性),追求分区容错性和可用性,例如一些注重用户体验的系统

CP:放弃可用性,追求一致性和分区容错性, 例如与钱财安全相关的系统

2.2 ACID理论

事务是数据库系统中非常重要的概念,它是数据库管理系统执行过程中的一个逻辑单元,它能够保证一个事务 中的所有操作要么全部执行,要么全都不执行。

数据库事务拥有四个特性ACID,即分别是原子性(Atomicity) 、一致性 (Consistency) 、隔离性(Isolation) 和持久性(Durability)

3.分布式事务

3.1 两阶段提交

二阶段提交(Two-phase Commit) :为了使基于分布式系统架构下的所有节点在进行事务提交时保持一致性而设计的一种演算法。

3.2 三阶段提交

三阶段提交vs两阶段提交

将两阶段提交中的Prepare阶段,拆成两部分:CanCommit和PreCommit机制 3.3 MVCC

MVCC是一种并发控制的方法,维持一个数 据的多个版本使读写操作没有冲突。所以既不会阻塞写,也不阻塞读。MVCC为每个修改保存一个版本, 和事务的时间截相关联。可以提高并发性能,解决脏读的问题。

3.4共识协议

RAFT协议:Raft协议是一种分布式一 致性算法(共识算法) , 即使出现部分节点故障,网络延时等情况,也不影响各节点,进而提高系统的整体可用性。Raft是使用较为广 泛的分布式协议。一定意义 上讲,RAFT也使用了Quorum机制。

小结

本课程由浅入深,复习和学习了分布式和容错的知识。