本文是青训营课程--后端入门--《认识存储与数据库》的笔记，讲师为马浩翔（超级好的老师，讲课通俗易懂）

1 经典案例

老师先举了个例子，用户注册产生结构化数据：

{
  "user_name":		"小明",
  "password":		"hello",
  "password_hint":	"coding",
  ...
}

然后数据流向如下图所示，数据库的作用是能够将数据持久化。

那么数据到达数据库之后该该做什么：

检查数据合法性
用高效的数据结构组织数据
用寿命&性能友好的方式写入硬件

2 存储系统

存储系统有两个特点

一个提供了读写、控制类接口
能够安全有效地把数据持久化的软件

存储系统和用户、存储介质、内存、网络都息息相关。

2.1 系统特点

作为后端的底座，性能敏感
存储系统的代码，即简单又复杂。作为最低层实现不能太复杂，但是要考虑到各种IO的错误
存储系统的软件架构容易受硬件影响。如果硬件发生变化，存储系统软件就要跟着变。

存储器层级结构

数据怎么从应用到存储介质

特点：

缓存很重要，贯穿整个存储体系
拷贝很昂贵，应该尽量减少，拷贝需要消耗CPU
硬件设备五花八门，需要有抽象统一的接入层

RAID技术

RAID:

Redundant
Array
Inexpensive
Disks

RAID出现的背景：

单块大容量的价格>多块小容量磁盘
单块磁盘的吸入性能<多块磁盘的并发写入性能
单块磁盘容错能力有限，不够安全

RAID0

简单的将磁盘组合，数据条带化(striping)存储，例如写入1024字节，则将其拆分为两个512字节放在两个磁盘上，提高磁盘读写带宽，但是没有冗余备份，不安全。

RAID1

走另外一个极端，不同磁盘之间完全是镜像(mirroring)拷贝，容错性MAX，但是空间利用率低，仅有50%。

其他选择

二者的结合。

2.2 数据库

关系数据库特点

关系型数据库本身就是存储系统，但是存储之外，又发展出其他能力：

对结构化数据非常友好
支持事务（ACID）
支持复杂查询语言

非关系数据库特点

非关系数据库也是存储系统，但是一般不要求严格的结构化

半结构化数据友好
可能支持事务（ACID）
可能支持复杂查询语言

2.3 数据库 vs 经典存储

对于结构化数据，写入关系型数据库很方便，直接以表的形式存储即可但是如果用经典的存储系统（例如文件系统）来保存结构化数据，则必须考虑每个字段需要用多少个字节这种细枝末节的问题（和字节打交道很麻烦🤣）

事务的ACID特性

Atomicity：原子性，事务要么全做，要么不做
Consistency：事务执行前后，数据状态一致。（老师讲了转账的例子，转完之后整体的钱总数应该不变）
Isolation：可以隔离多个并发事务，避免影响（比如同时用微信和支付宝取出卡上的100元，如果不处理好并发，会出现100元提出200元的逆天操作）
Durability：实物一旦提交成功，保证持久性。（不会出现，一个操作成功后过了一段时间告诉你那个操作又失效了）

数据库查询更加灵活简洁

例如，查询名字以"xiao"开头，且密码提示问题小于10个字的人，并按性别分组统计人数

select gender, count(*) from user
where user_name like 'xiao%'
and len(password_hint) < 10
group by gender;

而经典存储系统的查询是僵化且复杂的

2.4 数据库使用方式

DSL：Everything is Domain Specific Language(领域特定语言) SQL操作数据：Insert、Update、Select、Delete、Where子句、GroupBy、OrderBy SQL修改数据定义：Create、Alter

3 主流产品剖析

3.1 单机存储

单机存储=单个计算集结点上的存储软件系统，一般不涉及网络交互

本地文件系统

Linux经典哲学：一切皆文件。文件系统的管理单元：文件。文件系统接口：无论是Ext2/3/4,sysfs还是rootfs等，都遵循VFS的统一抽象接口。 Linux文件系统的量大数据结构：

Index Node（Inode）：记录文件元数据，如id、大小、权限、磁盘位置等。
- Inode是文件的唯一标识，会被存储到磁盘上。
- Inode的总数在格式化文件系统时就固定了。
Directory Entry：记录文件名、inode指针、层级关系等
- dentry是内存结构，与inode的关系是（hardlink的实现）

key-value存储

常见使用方式：put(k,v),get(k) 常见的数据结构：LSM-Tree,某种程度上牺牲读性能，追求写入性能数据结构被分为两部分：内存和磁盘。无论是内存还是磁盘，都遵循顺序写入的特点，不断put键值对，当内存中的Memtbale满了之后，它就会被刷到内存中的一个Immutable MemTable（只读、不可变），同时产生新的MemTable以供后面的数据写入。然后就可以根据策略将Immutable MemTable的数据进行刷盘(Flush)，把不可变的内存数据结构dump到到硬盘上的SSTable level 0层中，此步骤也称为Minor Compaction。拳头产品：RocksDB

3.2 分布式存储系统

分布式存储=在单机存储基础上实现了分布式协议，涉及大量网络交互

HDFS

HDFS是大数据时代的基石。时代背景：专用的高级硬件很贵，同时数据存量很大，要求超高吞吐 HDFS的特点：

支持海量存储
高容错性
弱POSIX语义（POSIX是可移植操作系统接口(Portable Operating System Interface of UNIX)的缩写，是IEEE为要在各种UNIX操作系统上运行的软件而定义的一系列API标准的总称。POSIX标准定义了操作系统应该为应用程序提供的接口标准，包括文件、进程、信号、线程、时间、IO等。）
使用普通x86服务器，性价比高

NameNode和Secondary NameNode被称为Mananement Node。DataNode被称为Storage Node。当我们需要读数据时，需要先访问NameNode获取物理位置，然后再访问DataNode。数据的分布会通过Hadoop体系来安排，尽可能避免数据在DataNode上挪来挪去。

Ceph

Ceph是开源分布式存储里的万金油 Ceph的核心特点：

一套系统支持对象接口、块接口、文件接口，但是一切皆对象
数据写入采用主备复制模型。主备复制模型是一种高可用性方案，用于在多个服务器之间复制数据。在这种模型中，一个服务器(称为主服务器)处理所有写入请求，而其他服务器(称为备份服务器)仅处理读取请求。如果主服务器出现故障，备份服务器将接管写入请求并成为新的主服务器。这种模型可以确保在主服务器出现故障时，应用程序仍然可以继续运行。
数据分布模型采用CRUSH算法。CRUSH算法的目标是将数据分布在不同的节点上，以便在节点故障时可以最小化数据丢失。CRUSH算法使用哈希函数将数据映射到不同的节点上，然后根据节点的状态和容量等因素来决定哪些节点应该存储哪些数据。

3.3 单机数据库-关系型数据库

商业产品中Oracle称王，开源产品常用的有MySQL和PostgreSQL。关系型数据库的通用组件：

Query Engine：负责解析query，生成查询计划
Txn Manager：负责事务并发管理
Lock Manager：负责锁相关的策略
Storage Engine：负责组织内部/磁盘数据结构，进行高性能读写淘汰
Replication：负责主备同步。单机数据库也有主角色和备角色，二者之间需要实现数据同步，从而实现冗余灾备。

关键的数据结构：

内存数据结构：B树、B+树、LRU List等
磁盘数据结构：WriteAheadLog(RedoLog)、Page

用户修改数据的本质是更新树中的Page（左边蓝色结点），同时要有一个日志RedoLog（左边绿色长条）来记录对哪个Page做了什么操作，查询过程中内存不够用了，会将中间计算过程存为临时数据（左图橙色）

3.4 单机数据库-非关系型数据库

关系型数据库一般直接用SQL交互，而非关系型数据库交互方式各不相同。非关系型数据库的数据机构也千奇百怪，schema相对灵活。不管是不是关系型数据库，大家都在尝试支持SQL子集和事务。

ElasticSearch

面相文档存储
文档可序列化为json，支持嵌套
存在[index],index=文档的集合
存储和构建索引的能力依赖于Lucene引擎
实现了大量搜索数据结构&算法
支持RESTFUL API，支持弱SQL交互

ElasticSearch天然支持模糊查询，还能自动算出关联程度。

MongoDB

面相文档存储
文档可序列化为json，支持嵌套
存在[collection],collection=文档的集合
存储和构建索引的能力依赖于wiredTigher引擎
4.0以后，MongoDB开始支持事务（多文档、跨分片多文档等）
常用client/SDK交互，可通过插件转译支持弱SQL

Redis

数据结构丰富（hash表、set、zset、list）
纯C语言实现，超高性能
主要基于内存，但支持AOF/RDB持久化
常用redis-cli多语言SDK交互

3.5 从单机到分布式数据库

单机数据库的问题：

容量：单节点容量有限，受硬件限制。
弹性
性价比

为了解决这些问题，需要引入分布式架构。

池化技术

把存储能力抽象为存储池，存储池中有很多物理或虚拟机组成，存储池和数据库通过网络进行交互，这样数据库就无需关心存储容量够还是不够了。那是存储池软件要复杂的事情。能够方便的动态扩容缩容。

4 新技术演进

4.1 概览

软件架构变更：Bypass OS kernel
AI增强：智能存储格式更换
新硬件革命
- 存储介质变更
- 计算单元变更
- 网络硬件变更

4.2 SPDK

Storage Performance Development Kit SPDK是Bypass OS kernel中的佼佼者

把IO链路上的操作由内核态（Kernel Space）转到用户态（User Space），避免了syscall带来的性能损耗，能直接从用户态访问磁盘
传统的IO链路上少不了中断机制，因为要和外设打交道，防止CPU忙等，但是当外设性能提高之后，中断次数会随之上升，不利于IO性能。SPDK将中断替换为轮询，SPDK poller可以绑定特定的cpu核不断轮询，减少中断带来的context switch，提高性能
SPDK使用了很多无锁数据结构，比如Lock-free queue，降低并发时的同步开销。

4.3 AI & Storage

对于关系型数据库中的表，我们有行存、列存两种方式，这两种方式各有优劣使用AI决策，能够实现行列混存，让AI决定哪些数据行存，那些数据列存。

4.4 高性能硬件

RDMA网络
Persistent Memory
可编程交换机
CPU/GPU/DPU

认识存储与数据库[青训营]