带你认识存储&数据库｜青训营带你认识存储&数据库： 1. 经典案例 2. 存储系统 3. 数据库 4. 主流产品剖析

1. 经典案例

一条数据从产生，到数据流动，最后持久化的全生命周期。

数据流动：

数据持久化：

潜在的问题：

数据库怎么保存数据不丢？
数据库怎么处理多人同时修改的问题？
为什么用数据库，除了数据库还能存到别的存储系统吗？
数据库只能处理结构化数据吗？
有哪些操作数据库的方法，要用什么编程语言？

2. 存储系统

一个提供了读写、控制类接口，能够安全有效地把数据持久化的软件，就可以称为存储系统。

2.1 存储系统特点

作为后端软件的底座，性能敏感。

存储系统代码，既"简单"又"复杂"。

存储系统软件架构，容易受硬件影响。

2.2 存储系统层级结构

2.3 数据怎么从应用到存储介质

缓存：贯穿整个存储体系

拷贝：很昂贵，应该尽量减少

硬件设备五花八门，需要有抽象统一的接入层。

2.4 RAID技术

R(edundant) A(rray) of l(nexpensive) D(isks)

背景：单块大容量磁盘的价格高，容错能力有限、不够安全，多块磁盘的并发写入性能高。

单机存储系统怎么做到高性能 / 高性价比 /高可靠性？

RAID 0：

多块磁盘简单组合
数据条带化存储，提高磁盘带宽
没有额外的容错设计

RAID 1：

一块磁盘对应一块额外镜像盘
真实空间利用率仅50%
容错能力强

RAID 0+1：

结合了RAID 0 和 RAID 1
真实空间利用率仅50%
容错能力强，写入带宽好

3. 数据库

分为关系型数据库和非关系型数据库。

3.1 关系型数据库

是存储系统，但是在存储之外，又发展出其他能力。

结构化数据友好。
支持事务（ACID）。
支持复杂查询语言。

3.2 非关系型数据库

也是存储系统，但是一般不要求严格的结构化。

半结构化数据友好。
可能支持事务（ACID）。
可能支持复杂查询语言。

3.3 数据库vs经典存储

结构化数据管理：

关系型数据库：以表格的形式管理数据
经典存储：写入文件，自行定义管理结构

**事务能力：**凸显出数据库支持[事务]的优越性。

A(tomicity) 事务内的操作，要么全做，要么不做
C(onsistency) 事务执行前后，数据状态是一致的
l(solation) 可以隔离多个并发事务，避免影响，取决于隔离等级
D(urability) 事务一旦提交成功，数据保证持久性

复杂查询能力：

数据库：灵活简洁
经典存储：复杂、僵化

3.4 数据库的使用方式

sql ：insert、update、select、delete、create....

4. 主流产品剖析

4.1 单机存储

单机存储 = 单个计算机节点上的存储软件系统，一般不涉及网络交互

本地文件系统
key-value存储

本地文件系统

Linux经典哲学：一切皆文件。

文件系统接口：文件系统繁多，如Ext2/3/4，sysfs，rootfs等但都遵循VFS的统一抽象接口

Linux文件系统的两大数据结构：Index Node 和 Directory Entry。

index Node：记录文件元数据，如id、大小、权限、磁盘位置等。inode是一个文件的唯一标识，会被存储到磁盘上，inode的总数在格式化文件系统时就固定了。
Directory Rntry：记录文件名、inode指针，层级关系(parent)等dentry是内存结构，与inode的关系是N:1（hardlink的实现）。

key-value存储

世界一切皆Key-value——key是你的身份证，value是你的内涵。

常用使用方式：put(k,v) 、get(k)

数据结构：LSM-Tree，某种程度上牺牲读性能、追求写入性能。

产品：RocksDB

4.2 分布式存储

分布式存储 = 在单机存储基础上实现了分布式协议，涉及大量网络交互

分布式文件系统
分布式对象存储

HDFS：大数据时代的基石

时代背景：专用高级硬件很贵，数据存量很大，要求超高吞吐

HDFS核心特点：

支持海量数据存储
高容错性
弱POSIX语义
使用普通的X86服务器，性价比高

Ceph：开源分布式存储系统的万金油

核心特点：

一套系统支持对象接口、块接口、文件接口、但是一切皆是对象
数据写入采用主备复制模型
数据分布模型采用 CRUSH 算法（Hash + 权重 + 随机抽签）

4.3 单机关系型数据库

单个计算机节点上的数据库系统，事务在单机内执行，也可能通过网络交互实现分布式事务

商业产品：Oracle

开源产品：MySQL & PostgreSQL

关系型数据库的通用组件:

Ouery Engine：负责解析query，生成查询计划
Txn Manager：负责事务并发管理
Lock Manager：负责锁相关的策略
Storage Engine：负责组织内存/磁盘数据结构
Replication：负责主备同步
关键内存数据结构：B-Tree、B+-Tree、LRU List等
关键磁盘数据结构：WriteAheadLog (RedoLog) 、Page

4.4 单机非关系型数据库

MongoDB、Redis、ELasticsearch

关系型数据库一般直接使用SQL交互，而非关系型数据库交互方式各不相同

非关系型数据库的数据结构千奇百怪，没有关系约束后，schema相对灵活。

不管是否关系型数据库，大家都在尝试支持SQL(子集)和“事务“。

MongoDB：

面向[文档] 存储
文档可序列化成JSON/BSON，支持嵌套
存在 [collection]，collection = 文档的集合存储和构建索引能力依赖wiredTiger引擎
4.0后开始支持事务(多文档、跨分片多文档等)
常用client/SDK交互，可通过插件转译支持弱SQL

Redis：

数据结构丰富 (hash表、set、zset、list)
C语言实现，超高性能
主要基于内存，但支持AOF/RDB持久化
常用redis-cli/多语言SDK交互

ELasticsearch ：

面向 [文档] 存储
文档可序列化成JSON，支持嵌套
存在 [index]，index = 文档的集合
存储和构建索引能力依赖Lucene引擎
实现了大量搜索数据结构 & 算法
支持RESTFUL API，也支持弱SOL交互

和RDBMS相比，ES天然能做模糊搜索，还能自动算出关联程度。

单机数据库遇到的挑战：

容量问题：单点容量有限
弹性问题：难以解决缩容的Disk问题
性价比问题：cpu和存储利用率

4.5 分布式数据库

解决容量问题：

解决弹性问题：

解决性价比问题：

5. 新技术演进

软件架构：Bypass OS kernel

AI增强：智能存储格式转换

新硬件革命：存储介质变更、计算单元变更、网络硬件变更

6. 总结

存储系统：

块存储：存储软件栈里的底层系统，接口过于朴素
文件存储：日常使用最广泛的存储系统，接口十分友好，实现五花八门
对象存储：公有云上的王牌产品，immutable语义加持
key-value存储：形式最灵活，存在大量的开源/黑盒产品

数据库系统：

关系型数据库：基于关系和关系代数构建的，一般支持事务和SOL访问，使用体验友好的存储产品
非关系型数据库：结构灵活，访问方式灵活，针对不同场景有不同的针对性产品

分布式架构：

数据分布策略：决定了数据怎么分布到集群里的多个物理节点，是否均匀，是否能做到高性能
数据复制协议：影响IO路径的性能、机器故障场景的处理方式
分布式事务算法：多个数据库节点协同保障一个事务的ACID特性的算法，通常基于2pc的思想设计

带你认识存储&数据库 ｜ 青训营