存储系统主流产品剖析

单机存储

单机存储 = 单个计算机节点上的存储软件系统，一般不涉及网络交互

graph TD;
emperor((本地文件系统))
emperor1((key-value存储))

本地文件系统

linux经典哲学：一切皆文件

文件系统的管理单元：文件

文件系统接口：文件系统繁多，如Ext2/3/4，sysfs，rootfs，但都遵循VFS的统一抽象接口

Linux文件系统的两大数据结构：Index Node & Directory Entry

Index Node

记录文件元数据，如id、大小、权限、磁盘位置等inode是一个文件的唯一标识，会被存储到磁盘上inode的总数在格式化文件系统时就固定了

Directory Entry

记录文件名、inode指针，层级关系（parent等） dentry是内存结构，与inode的关系是N:1（hardlink的实现）

key-value存储

哲学：世间一切皆key-value

常见使用方式：put(k,v) & get(k)

常见的数据结构：LSM-Tree，某种程度上牺牲读性能，追求写入性能（HDD-SSD）

拳头产品：RocksDB（对顺序写入友好）

分布式存储

分布式存储 = 在单机存储基础上实现了分布式协议，涉及大量网络交互

graph TD;
a((分布式文件存储系统))
b((分布式对象存储))

HDFS

分布式文件存储系统

时代背景：专用的高级硬件很贵，同时数据存量很大，要求超高吞吐

HDFS核心特点：

支持海量数据存储
高容错性
弱POSIX定义
使用普通x86服务器，性价比高

ceph

分布式对象存储

核心特点：

一套系统支持对象接口、块接口、文件接口，但是一切皆对象
数据写入采用主备复制模型
数据分布模型采用CRUSH算法（HASH+权重+随机抽签）

单机数据库

单机数据库 = 单个计算机节点上的数据库系统

事务在单机内执行，也可能通过网络交互实现分布式事务

graph TD;
SQL((关系型数据库))
NoSQL((非关系型数据库))

单机关系型数据库

such as：Oracle、MySQL、PostgreSQL

关系型数据库的通用组件：

Query Engine——负责解析query，生成查询计划

Txn Manager——负责事务并发管理

Lock Manager——负责锁相关业务

Storage Engine——负责组织内存/磁盘数据结构

Replication——负责主备同步

关键内存数据结构：B_Tree、B+_Tree、LRU List等

关键磁盘数据结构：WriteAheadLog (RedoLog)、Page

一一对应

单机非关系型数据库

such as : MongoDB、Redis、Elasticsearch

特点：

关系型数据库一般直接使用SQL交互，而非关系型数据库交互方式各不相同
非关系型数据库的数据结构千奇百怪，没有关系约束后，schema相对灵活
不管是否关系型数据库，大家都在尝试支持SQL（子集）和事务

Elasticsearch	MongoDB	Redis
面向文档存储	面向文档存储	数据结构丰富（hash表、set、zset、list）
文档可序列化成JSON，支持嵌套	文档可序列化成JSON/BSON，支持嵌套	c语言实现，超高性能
存在Index，index = 文档的集合	存在collection，collection = 文档的集合	主要基于内存，但支持AOF/RDB持久化
存储和构建索引的能力依赖Lucene引擎	存储和构建索引能力依赖wiredTiger引擎	常用redis-cli/多语言SDK交互
实现了大量搜索数据结构&算法	4.0后开始支持事务（多文档、跨分片多文档等）
支持RESTFul API，也支持弱SQL交互	常用client/ SDK交互，可通过插件转译支持弱SQL

Elasticsearch使用案列：

分布式数据库

单机数据库遇到了哪些问题&挑战，需要引入分布式架构来解决？

容量

存储节点池化基于以下原理：

1.  资源管理：存储节点池化通过将一组存储节点（通常是一组物理服务器或虚拟机）组合成一个池，集中管理和分配节点的存储资源。这些资源可以是磁盘空间、内存、计算能力等。
2.  资源共享：存储节点池化使得不同的数据库实例或数据分片可以共享池中的存储节点资源。这样，数据库实例可以根据需要动态地分配和释放节点资源，根据负载情况进行资源调整和优化。
3.  负载均衡：存储节点池化可以自动将请求分配给可用的存储节点，以实现负载均衡。它可以监控节点的负载情况，根据负载情况进行请求分发，确保每个节点的负载相对平衡，避免单个节点过载。
4.  容错和高可用性：存储节点池化可以提供容错和高可用性。当一个存储节点发生故障或不可用时，池化系统可以自动将请求重定向到其他可用节点，保证系统的可用性和数据的持久性。

通过存储节点池化技术，分布式数据库可以更好地利用和管理存储资源，提高性能和可伸缩性，并提供高可用性和容错能力。它是构建大规模分布式数据库系统的关键技术之一。

弹性

采用池化技术能够解决扩容缩容问题。

性价比

随之而来的问题：

单写 VS 多写
从磁盘弹性到内存弹性
分布式事务优化

新技术演进

软件架构变更

Bypass OS kernel

AI增强

智能存储格式转换

新硬件革命

存储介质变更
计算单元变更
网络硬件变更

SPDK

高性能硬件

总结：

存储系统：

块存储：存储软件栈里的底层系统，接口过于朴素
文件存储：日常使用最广泛的存储系统，接口十分友好，实现五花八门
对象存储：公有云上的王牌产品，immutable语义加持
key-value存储：形式最灵活，存在大量的开源/黑盒产品

数据库系统：

关系型数据库：基于关系和关系代数构建的，一般支持事务和SQL访问，使用体验友好的存储产品
非关系型数据库：结构灵活，访问方式灵活，针对不同场景有不同的针对性产品

分布式架构：

数据分布策略：决定了数据怎么分布到集群里的多个物理节点，是否均匀，是否能做到高性能
数据复制协议：影响IO路径的性能、机器故障场景的处理方式
分布式事务算法：多个数据库节点协同保障一个事务的ACID特性的算法，通常基于2pc的思想设计

存储系统和数据库剖析 | 青训营笔记