这是我参与「第五届青训营」伴学笔记创作活动的第 15 天

一、本堂课重点内容

经典案例
存储 & 数据库简介
主流产品剖析
新技术演进

二、详细知识点介绍

经典案例

一条数据从产生，到数据流动，最后持久化的全生命周期。

数据的产生

某天，小明下载了一个新的APP。因为第一次登录，所以进入APP后需要注册一个新的账号。

用户名：小明
密码：helloworld
密码提示问题：coding
...

小明在填好资料后，按下了注册按钮，这样数据就从无到有地产生了，并且在数十/数百毫秒内向APP的后端服务器发送。

数据的流动

如上图所示，数据的流动路径是从小明的手机到APP的后端服务器，再到数据库服务器，然后再到其他的处理系统。

数据的持久化

其过程一般是：

检验数据的合法性

“小明”是否已存在？
修改内存

用高效的数据结构组织数据
写入存储介质

以寿命&性能友好的方式写入硬件

潜在的问题

数据库怎么保证数据不丢？
数据库怎么处理多人同时修改的问题？
为什么用数据库，除了数据库还能存到别的存储系统吗？
数据库只能处理结构化数据吗？
有哪些操作数据库的方式，要用什么编程语言？

存储 & 数据库简介

存储系统

系统概览

Q：什么是存储系统？

A：一个提供了读写、控制类接口，能够安全有效地把数据持久化的软件，就可以称之为存储系统。

系统特点

作为后端软件的底座，性能敏感
存储系统软件架构，容易受硬件影响
存储系统代码，即“简单”又“复杂”

存储器层级结构

从上至下容量变大，速度变慢，价格变便宜。其中内存相关方面，现在有Persistent Memory相关技术正在研究。

数据怎么从应用到存储介质

以上为应用数据到存储介质的过程，其中涉及到一些用户态和内核态的切换，以及一些数据的缓存。

从整个流程来看

缓存很重要，贯穿整个存储体系
拷贝很昂贵，应该尽量减少
硬件设备五花八门，需要有抽象统一的接入层

RAID技术

Q：单机存储系统怎么做到高性能/高性价比/高可靠性？

A：Redundant Array of Inexpensive Disks

RAID出现的背景：

单块大容量磁盘的价格 > 多块小容量磁盘
单块磁盘的写入性能 < 多块磁盘的并发写入性能
单块磁盘的容错能力有限，不够安全

由此，RAID技术应运而生。

RAID 0

多块磁盘简单组合
数据条带化存储，提高磁盘带宽
没有额外的容错设计

RAID 1

一块磁盘对应一块额外镜像盘
真实空间利用率仅50%
容错能力强

RAID 0+1

结合了RAID 0和RAID 1
真实空间利用率仅50%
容错能力强，写入带宽好

数据库

难道数据库和存储系统不一样吗？

要回答这个问题，得从数据库的两种类型关系型数据库和非关系型数据库来说。

概览

关系（Relation）又是什么？

Edgar.F.Codd于1970年提出关系模型
关系 = 集合 = 任意元素组成的若干有序偶对，其反映了事物间的联系
关系代数 = 对关系作运算的抽象查询语言
- 交、并、笛卡尔积
SQL = 一种DSL = 方便人类阅读的关系代数表达形式

关系型数据库特点

关系型数据库是存储系统，但是在存储之外，又发展出其他能力

结构化数据友好
支持事务（ACID）
支持复杂查询语言

非关系型数据库特点

非关系型数据库数据库也是存储系统，但是一般不要求严格的结构化

半结构化数据友好
可能支持事务
可能支持复杂查询语言

数据库 vs 经典存储

结构化数据管理

对于一条用户注册数据

{
  "username":"xiaoming",
  "password":"helloworld",
  "password_hint":"coding",
  ......
}

在数据库中，以关系型数据库为例，可以用一张表来表示，如下表所示

id	user_name	password	password_hint
0	xiaoming	helloworld	coding
1	student	cplusplus	coding
......	......	......	......

在经典存储中，需要将其写入文件，自行定义管理结构，如下图所示

事务能力

数据库除了存储数据，还提供了事务的能力，即ACID。

复杂查询能力

Q：写入数据之后，想做很复杂的查询怎么办？

Example：请查询出名字以xiao开头，且密码提示问题小于10个字的人，并按性别分组统计人数

对于经典存储，其查询过程如下

for each data {
  if (user_name ...... && password_hint ......) {
    mark in list
  }
}
for each in marked_list {
  if (gender == ......){}
}

而对于数据库查询来说，其查询过程如下

SELECT gender, COUNT(*) FROM user
WHERE user_name LIKE 'xiao%'
AND LEN(password_hint) < 10
GROUP BY gender;

可以说，使用经典存储查询，其过程僵化、负载，而使用数据库SQL语句查询非常灵活、简洁。

数据库使用方式

Everything is Domain Specific Language

SQL就是一种DSL。

以SQL为例，要操作数据时，支持以下操作：

Insert
Update
Select
Delete
Where
GroupBy
OrderBy

而要对数据定义做修改时，支持以下操作：

Create user
Create database
Create table
Alter table
......

主流产品剖析

主要分析：

单机存储
分布式存储
单机关系型数据库
单机非关系型数据库
分布式数据库

单机存储

概览

单机存储=单个计算机节点上的存储软件系统，一般不涉及网络交互。

包括：

本地文件系统
key-value存储

本地文件系统

Linux经典哲学：一切皆文件

文件系统的管理单元：文件
文件系统接口：文件系统繁多，如Ext2/3/4、sysfs、rootfs等，但都遵循VFS的统一抽象接口
Linux文件系统两大数据结构：Index Node和Directory Entry
- Index Node
  - 记录文件元数据，如id、大小、权限、磁盘位置等
  - inode是一个文件的唯一标识，会被存储到磁盘上
  - inode的总数在格式化文件系统时就固定了
- Directory Entry
  - 记录文件名、inode指针、层级关系（parent）等
  - dentry是内存结构，与inode的关系是N:1（hardlink的实现）

key-value存储

世间一切皆key-value，key是你的身份证，value是你的内涵:)

常见使用方式：put(k, v) & get(k)
常见数据结构：LSM-Tree，某种程度上牺牲读性能，追求写入性能
- LSM-Tree是一种分层、有序、面向磁盘的数据结构，其核心思想是利用磁盘批量顺序写要远比随机写性能高的特点，而使得写入性能大幅提升。AOF（Append Only File）是其典型模式。
- LSM-Tree写数据流程
  - 首先给出SSTable的主要部分图，主要就是通过index来查找key的位置，然后取出value，index也是存储在SSTable中的
  - 先写WAL（Write Ahead Log），用于故障恢复
  - 然后写MemTable（可以认为是内存中的SSTable），在内存中为了维护有序性，一般会使用跳表或者红黑树等数据结构
  - 当MemTable超过一定大小后，会在内存中冻结，变成不可变的MemTable（Immutable MemTable），此时为了不影响写入，会新建一个MemTable
  - 将Immutable MemTable给dump入磁盘的Level 0 的SSTable，此步骤也叫做Minor Compaction，注意L0的SSTable是没有Compaction的，所以可能会有重叠的key，不过这个问题在后面的Compaction中会被解决
  - 当Level 0的SSTable达到一定数量或大小后，会触发Compaction，将Level 0的SSTable合并成Level 1的SSTable，此步骤叫做Major Compaction，这个过程中会去除重复的key以及多版本数据的合并，避免浪费空间，由于SSTable有序，故可用归并排序的方式进行合并
- LSM-Tree读数据流程
  - 首先在内存中查询，如果找到了，直接返回
  - 如果没找到，就会依次下沉，直到把所有的Level层都遍历一遍
- 查询优化
  - 分组压缩
    
    不压缩整个SSTable，而是将其根据locality分组，每个组分别压缩，这样可以提高查询性能，不用每次都遍历整个SSTable。
  - 缓存
  - 索引、Bloom Filter
    
    布隆过滤器简单来说就是通过多个不同的哈希函数来对元素判断存在与否的一种结构。它的特点是通过布隆过滤器不存在的key，那么一定不存在，而通过布隆过滤器存在的key，那么就可能存在。原理就是多次哈希若有一次不同，则必定不是对应的key，而多次哈希相同，那么由于哈希冲突的存在，可能是对应的key，也可能是刚好哈希冲突的key。利用这一特点，我们可以快速对不存在的key进行返回。
  - 合并
    
    白天尽量禁用Major Compaction，夜间进行Major Compaction，这样可以减少资源消耗，并提高性能。
拳头产品：RocksDB

分布式存储

概览

分布式存储 = 在单机存储基础上实现了分布式协议，设计大量网络交互

包括：

分布式文件系统
分布式对象存储

HDFS

HDFS：堪称大数据时代的基石

时代背景：专用的高级硬件很贵，同时数据存量很大，要求超高吞吐

HDFS核心特点：

支持海量数据存储
高容错性
弱POSIX语义
使用普通x86服务器，性价比高

Ceph

Ceph：开源分布式存储系统里的万金油

核心特点：

一套系统支持对象接口、块接口、文件接口，但一切皆对象
数据写入采用主备复制模型
数据分布模型采用CRUSH算法（HASH+权重+随机抽取）

单机数据库

概览

单机数据库 = 单个计算机节点上的数据库系统

事务在单机内执行，也可能通过网络交互实现分布式事务

包括：

关系型数据库
非关系型数据库

关系型数据库

商业产品Oracle称王，开源产品MySQL&PostgreSQL称霸

关系型数据库的通用组件：

Query Engine

负责解析query，生成查询计划
Txn Manager

负责事务并发管理
Lock Manager

负责锁相关的策略
Storage Engine

负责组织内存/磁盘数据结构
Replication

负责主备同步

其关键内存数据结构：

B-Tree
B+-Tree
LRU List
......

关键磁盘数据结构：

WAL（Write Ahead Log 或称为 RedoLog）
Page

非关系型数据库

2022年数据库排行

MongoDB、Redis、ElasticSearch三足鼎立

关系型数据库一般直接使用SQL交互，而非关系型数据库交互方式各不相同
非关系型数据库的数据结构千奇百怪，没有关系约束后，schema相对灵活
不管是否关系型数据库，大家都在尝试支持SQL（子集）和“事务”

ElasticSearch

面向文档存储
文档可序列化成JSON，支持嵌套
存在index，index=文档的集合
存储和构建索引能力依赖于Lucene引擎
实现了大量搜索数据结构&算法
支持RESTful API，也支持弱SQL交互

MongoDB

面向文档存储
文档可序列化成JSON/BSON，支持嵌套
存在collection，collection=文档的集合
存储和构建索引能力依赖于WiredTiger引擎
4.0后开始支持事务（多文档、跨分片多文档等）
常用client/SDK交互，可通过插件转译支持弱SQL

Redis

数据结构丰富（hash表、set、zset、list）
C语言实现，超高性能
主要基于内存，但支持AOF/RDB持久化
常用redis-cli/多语言SDK交互

与RDBMS相比，ElasticSearch天生支持模糊搜索，还能计算出关联程度。

从单机到分布式数据库

单机数据库遇到了哪些问题&挑战，需要引入分布式架构解决？

主要有三点：

容量
弹性
性价比

分布式数据库

解决容量问题

如左图单机数据库，随着数据量的增长，单机的磁盘容量会受到限制。

如右图分布式数据库，将数据分散到存储池中，可以动态扩缩容。

解决弹性问题

解决性价比问题

More to Do

单写 vs 多写
从磁盘弹性到内存弹性
分布式事务优化

新技术演进

概览

软件架构变更
- Bypass OS
- kernel
AI增强
- 智能存储格式转换
新硬件革命
- 存储介质变更
- 计算单元变更
- 网络硬件变更

SPDK

SPDK（Storage Performance Development Kit）是一个开源的，用于构建高性能，可扩展的存储应用程序的软件开发工具包。

主要有三方面：

Kernel Space -> User Space
- 避免syscall带来的性能损耗，直接从用户态访问磁盘
中断 -> 轮询
- 磁盘性能提高后，中断次数随之上升，不利于IO性能
- SPDK poller可以绑定特定的cpu不断轮询，减少cs（context switch），提高性能
无锁数据结构
- 使用Lock-free queue，降低并发时的同步开销

AI & Storage

AI领域相关技术，如Machine Learning在很多领域：如推荐、风控、视觉领域证明了有效性。

在Storage领域，AI能够我们带来什么改变？

数据库中行存储和列存储在AI的决策下实现行列混存。

高性能硬件

RDMA网络

传统的网络协议栈，需要基于多层网络协议处理数据包，存在用户态&内核态的切换，足够通用但性能不是最佳
RDMA是Kernel bypass的流派，不经过传统的网络协议栈，可以把用户态虚拟内存映射给网卡，减少拷贝开销，减少cpu开销

Persistent Memory

在NVMe SSD和Main Memory之间有一种全新的存储产品：Persistent Memory。

IO实验介于SSD和Memory之间，约百纳秒量级
可以用作易失性内存（memory mode），也可以用作持久化介质（app-direct）

可编程交换机

P4 Switch，配有编译器、计算单元、DRAM，可以在交换机层对网络包做计算逻辑。在数据库场景下，可以实现缓存一致性协议等。

CPU/GPU/DPU

CPU：从multi-core走向many-core
GPU：强大的算力&越来越大的显存空间
DPU：异构计算，减轻CPU的workload

三、实践练习例子

本节课程没有给出用于实践练习的例子。

四、课后个人总结

本节课程从数据的经典处理案例开始，从存储和数据库两大方面进行展开，之后又介绍了主流的数据库产品，既有单机数据库，也有分布式数据库，最后介绍了新技术的演进，包括SPDK、AI & Storage、高性能硬件等。

存储与数据库 ｜ 青训营笔记