这是我参与「第五届青训营」伴学笔记创作活动的第22

存储&数据库简介

存储系统概览：

存储系统：一个提供了读写、控制类接口，能够安全有效的把数据持久化的软件

存储系统特点

作为后端软件的底座，性能敏感
存储系统代码，简单又复杂
1. 简单：IO路径上保证性能，必须简单
2. 复杂：非IO路径、IO错误处理上必须考虑很多异常情况
存储系统软件架构，容易受硬件影响

存储器层级结构

硬件层级

图片.png

软件层级

缓存：很重要，贯穿整个存储体系
拷贝：很昂贵，应尽量减少
硬件：五花八门，需要有抽象统一的接入层

RAID技术

RAID技术背景
- 单块大容量价格 >> 多块小容量
- 单块写入性能 < 多块磁盘并发写入
- 单块磁盘容错能力有限，不够安全
单机存储系统怎么做到：高性能、高性价比、高可靠性？
- R(edundant)A(rray)I(nexpensive)D(isk)
RAID0
- 多块磁盘简单组合
- 数据条带化存储，提高磁盘带宽
- 没有额外的容错设计
RAID1
- 一块磁盘对应一块额外镜像盘
- 真实空间利用率仅50%
- 容错能力强
RAID　0 +１
- 结合上述两个技术
- 真实空间利用率仅50%
- 容错能力强

数据库系统概览

关系型数据库特点

关系 = 集合 = 任意元素组成的若干有序偶对
关系代数 = 对关系做运算的抽象查询语言：交、并...

关系型数据库就是存储系统，但又包含其他能力：

结构化数据友好
支持事务ACID
支持复杂SQL查询

非关系型数据库特点

非关系型数据库也是存储系统，但是一般不要求严格的结构化

半结构化数据友好
可能支持事务
可能支持复杂SQL查询

数据库 vs 经典存储

数据库结构化数据管理方便
数据库支持事务的优越性
数据库具有复杂的查询能力

主流产品解析

单机存储产品

单机存储 = 单个计算机节点上的存储软件系统，一般不涉及网络交互

单机文件系统

Index Node（元数据节点）

记录文件数据：id、大小、权限、磁盘位置等，inode是一个文件的唯一标识，被存储到磁盘上的inode总数在格式化文件系统时就固定了，是一个常数

Directory Entry

记录文件名，不会持久化到磁盘，inode指针，层级关系等，dentry是内存结构，与inode的关系是N：1

单机key-value存储

常见数据结构：LSM-Tree，某种程度上牺牲读性能，追求写入性能

拳头产品：RocksDB

左侧内存数据结构
1. 当内存满了之后，会将其刷到内存灰区
2. 顺序写进磁盘的SSTable中
右侧磁盘数据结构
1. Level0满了会刷到Level2
2. 依次向下刷

图片.png

分布式存储产品

在单机存储系统上实现了分布式协议，实际大量网络交互

HDFS：大数据时代的基石

支持海量的数据存储：以文件的形式给用户读写
高容错性：使用一般低级硬件
弱POSIX语义
使用普通x86服务器，性价比高

Ceph：开源分布式存储系统万金油

一套系统支持对象接口、块接口、文件接口，一切皆对象
数据写入采用主备复制模型
数据分布模型采用CRUSH算法
1. HASH+权重+随机抽签确定副本存储的机器

单机数据库产品

关系型数据库 —— PG、MySQL

商业产品：Oracle称王

开源产品：Mysql&PostgreSQL称霸

图片.png

非关系型数据库 —— ES、MongoDB、Redis

关系型数据库一般直接使用SQL进行交互，而非关系型数据库交互方式各不相同
非关系型数据库的数据结构千奇百怪，没有关系约束之后，schema相对灵活
不管是否是关系型数据库，大家都在尝试支持SQL(子集)和事务

Elasticsearch：
- 面向文档存储
- 文档可以序列化为JSON，支持嵌套
- 存在index，index=文档的集合
- 存储和构建索引能力依赖Lucene引擎
- 实现了大量搜索数据结构&算法
- 支持Restful API，也支持弱SQL交互
MongoDB：
- 面向文档存储，但很灵活基本可以存任何定西
- 文档可以序列化为JSON/BSON，支持嵌套
- 存在collection，collectioon=文档的集合
- 4.0之后支持事务
- 常用client/SDK交互，可通过差价转译支持弱SQL
redis：
- 数据结构丰富（hash、set、zset、list）
- C语言实现，超高性能
- 主要基于内存，但支持AOF/RDB持久化
- 常用redis-cli/多语言SDK交互

分布式数据库产品

问题与解决方案

容量：单节点容量有限，受硬件限制
1. 存储节点池化，动态扩缩容，池与database通过网络连接
弹性：
性价比：

单写vs多写？
从磁盘到内存弹性？
分布式事务优化？

新技术演进

演进方向

软件架构变更：Bypass OS kernel
AI增强：智能存储格式转涣
新硬件革命
1. 存储介质变更
2. 计算单元变更
3. 网络硬件变更

SPDK（类似DPDK）

Bypass OS kernel的佼佼者

Kernel Space -> User Space：避免syscall带来的性能损耗，直接从用户态访问磁盘
中断 -> 轮询：
1. 磁盘性能提高，中断次数随之上升，不利于IO性能
2. SPDK poller可以绑定特定的cpu核不断轮询，减少cs，提高性能
无锁数据结构：使用**Lock-free queue，减低并发时的同步开销 **

人工智能

数据存储格式的转换：
- AI行列混存：由AI实时分析哪些数据用行存，哪些用列存

新硬件加速

RDMA网络

传统网络协议栈TcpIp：需要基于多层网络协议处理数据包，存在用户态核内核态之间的切换，通用但性能不高
RDMA：可以把用户态虚拟内存映射给网卡，减少内存、CPU的开销

Persistent Memory

在NVMe SSD和Main Memory之间有一种全新的存储产品persistent memory

IO时延介于二者之间，约百纳秒量级
可以用作易失性内存，也可以用作持久化介质

可编程交换机

可以在交换机层次对网络包做计算逻辑处理，在数据库场景下，可以缓存一致性协议等

CPU/GPU/DPU

CPU：从muti-core走向many-core
GPU：强大的算例&越来越大的显存空间
DPU：异构计算，减轻CPU的负担

存储的本质 | 青训营笔记

存储&数据库简介

存储系统概览：

存储系统特点

存储器层级结构

硬件层级

软件层级

RAID技术

数据库系统概览

关系型数据库特点

非关系型数据库特点

数据库 vs 经典存储

主流产品解析

单机存储产品

单机文件系统

Index Node（元数据节点）

Directory Entry

单机key-value存储

分布式存储产品

HDFS：大数据时代的基石

Ceph：开源分布式存储系统万金油

单机数据库产品

关系型数据库 —— PG、MySQL

非关系型数据库 —— ES、MongoDB、Redis

分布式数据库产品

问题与解决方案

新技术演进

演进方向

SPDK（类似DPDK）

人工智能

新硬件加速

RDMA网络

Persistent Memory

可编程交换机

CPU/GPU/DPU