带你认识存储的本质 - 状态

这是我参加【第五届青训营】伴学笔记创作活动的第15天

课程目标

经典案例：一条数据从产生，到数据流动，最后持久化的生命周期
存储& 数据库简介：数据库和存储系统背景知识，它们是什么，有哪些特点
主流产品剖析：主流的存储& 数据库系统架构，经典产品剖析
新技术演进：老系统结合新技术，如何持续演进走向新生

经典案例

经典案例-数据的产生

某天，小明同学下载了一个新的 APP 。因为第一次登陆，所以进入 APP 后需要注册一个新的账号

用户名：小明密码： helloworld
密码提示问题： coding
......

于是小明同学三下五除二地填好了资料，按下了「注册」按钮
就这样，数据就从无到有地产生了，并且在数十／数百毫秒内向 APP 的后端服务器飞奔而去．....

经典案例-数据的流动

屏幕截图 2023-02-12 153142.png

经典案例-数据的持久化

校验数据的合法性：小明是否已存在
修改内存：用高效的数据结构组织数据
写入存储介质：以寿命&性能友好的方式写入硬件

经典案例-潜在的问题

数据库怎么保证数据不丢？
数据库怎么处理多人同时修改的问题？
为什么用数据库，除了数据库还能存到别的存储系统吗？
数据库只能处理结构化数据吗？
有哪些操作数据库的方式，要用什么编程语言？

存储&数据库简介

存储系统-系统概览

什么是存储系统？

一个提供了读写、控制类接口，能够安全有效地把数据持久化的软件，就可以称为存储系统

User:用户
Medium：磁盘
Memory：内存
Network：网络

存储系统-系统特点

作为后端软件的底座，性能敏感
存储系统代码，既简单又复杂
存储系统软件架构，容易受硬件影响

存储系统-存储器层级结构

屏幕截图 2023-02-12 153926.png

存储系统-数据怎么从应用到存储介质

屏幕截图 2023-02-12 154238.png

缓存很重要，贯穿整个存储体系
拷贝很昂贵，应该尽量减少
硬件设备五花八门，需要有抽象统一的接入层

存储系统-RAID技术

单机存储系统怎么做到高性能／高性价比／高可靠性？

R ( edundant ) A ( rray ) of I ( nexpensive ) D ( isks )

RAID 出现的背景：

单块大容量磁盘的价格＞多块小容量磁盘
单块磁盘的写入性能＜多块磁盘的并发写入性能
单块磁盘的容错能力有限，不够安全

RAID 0

多块磁盘筒单组合
数据条带化存储，提高磁盘带宽
没有额外的容错设计

RAID 1

一块磁盘对应一块额外镜像盘
真实空间利用率仅50%
容铺能力强

RAID 0+1

结合了 RAID O 和RAID1
真实空间利用率仅50%
客错能力强，写人带宽好

数据库

数据库和存储系统不一样吗？

关系型数据库
非关系型数据库

数据库-概览

关系（ Relation ）又是什么？

Edgar . F . Codd 于1970年提出「关系模型」
关系＝集合＝任意元素组成的若干有序偶对反应了事物间的关系
关系代数=对关系作运算的抽象查询语言：交、并、笛卡尔积﹣
SQL ＝一种 DSL ＝方便人类阅读的关系代数表达形式

数据库-关系型数据库特点

关系型数据库是存储系统，但是在存储之外，又发展其他能力

结构化数据友好
支持事务（ACID）
支持复杂查询语言

数据库-非关系型数据库

非关系型数据库也是存储系统，但是一般不要求严格的结构化

半结构化数据友好
可能支持事务（ACID）
可能支持复杂查询语言

数据库 vs 经典存储-结构化数据管理

屏幕截图 2023-02-12 155338.png

数据库 vs 经典存储-事务能力

屏幕截图 2023-02-12 155429.png

凸显出数据库支持「事务」的优越性事务具有：

A ( tomicity )，事务内的操作要么全做，要么不做
C ( onsistency )，事务执行前后，数据状态是一致的
I ( solation )，可以隔离多个并发事务，避免影响
D ( urability )，事务一旦提交成功，数据保证持久性

数据库 vs 经典存储-复杂查询能力

写入数据之后，想做很复杂的查询怎么办？

例：请查询出名字以xiao开头，且密码提示问题小于10个字的人，并按性别分组统计人数

屏幕截图 2023-02-12 155651.png

数据库：灵活、简洁
经典存储：僵化、复杂

数据库使用方式

Everything is D ( omain ) S ( pecific ) L ( anguage ) ——> SQL

以 SQL 为例，要操作数据时，支持以下操作

Insert
Update
Select
Delete
Where 子句
GroupBy
OrderBy

要对数据定义做修改时，支持以下操作：

Create user
Create database
Create table
Alter table
...

主流产品剖析

单机存储-概览

单机存储=单个计算机节点上的存储软件系统，一般不涉及网络交互

本地文件系统
key-value存储

单机存储-本地文件系统

Linux 经典哲学：一切皆文件

文件系统的管理单元：文件
文件系统接口：文件系统繁多，如Ext2/3/4, systs , rootfs 等，但都遵循 VFS 的统一抽象接口
Linux 文件系统的两大数据结构： Index Node & Directory Entry

Index Node
- 记录文件元数据，如 id 、大小、权限、磁盘位置等
- inode 是一个文件的唯一标识，会被存储到磁盘上，inode 的总数在格式化文件系统时就固定了
Directory Entry
- 记录文件名、inode 指针，层级关系（ parent ）等
- dentry 是内存结构，与 inode 的关系是 N :1( hardlink 的实现)

单机存储-key-value存储

世间一切皆 key - value —— key 是你身份证， value 是你的内涵：)

常见使用方式： put ( k , v )& get ( k )
常见数据结构： LSM - Tree ，某种程度上牺牲读性能，追求写入性能
拳头产品： RocksDB

分布式存储-概览

分布式存储=在单机存储基础上实现了分布式协议，涉及大量网络交互

分布式文件系统
分布式对象存储

分布式存储-HDFS

HDFS ：堪称大数据时代的基石

时代背景：专用的高级硬件很贵，同时数据存量很大，要求超高吞吐

HDFS 核心特点：

支持海量数据存储
高容错性
弱 POSIX 语义
使用普通x86服务器，性价比高

分布式存储-Ceph

Ceph ：开源分布式存储系统里的「万金油」

Ceph 的核心特点：

一套系统支持对象接口、块接口、文件接口，但是一切皆对象
数据写入采用主备复制模型
数据分布模型采用 CRUSH 算法

CRUSH 算法：HASH ＋权重＋随机抽签

单机数据库-概览

单机数据库=单个计算机节点上的数据库系统

事务在单机内执行，也可能通过网络交互实现分布式事务

关系型数据库
非关系型数据库

单机数据库-关系型数据库

商业产品 Oracle 称王，开源产品 MySQL & PostgreSQL 称霸

关系型数据库的通用组件：

Query Engine ——负责解析 query ，生成查询计划
Txn Manager ——负责事务并发管理
Lock Manager ——负责锁相关的策略
Storage Engine ——负责组织内存／磁盘数据结构
Replication ——负责主备同步
关键内存数据结构： B - Tree 、 B +- Tree 、 LRU List 等
关键磁盘数据结构： WriteAheadLog ( RedoLog )、 Page

单机数据库-关系型数据库

屏幕截图 2023-02-12 161404.png

MongoDB 、 Redis 、 Elasticsearch 三足鼎立

关系型数据库一般直接使用 SQL 交互，而非关系型数据库交互方式各不相同
非关系型数据库的数据结构千奇百怪，没有关系约束后， schema 相对灵活
不管是否关系型数据库，大家都在尝试支持 SQL （子集）和“事务”

Elasticsearch

面向「文档」存储
文档可序列化成 JSON，支持嵌套
存在「 index 」, index ＝文档的集合
存储和构建索引能力依赖 Lucene 引擎
实现了大量搜索数据结构＆算法
支持 RESTFUL API ，也支持弱 SQL 交互

mongoDB

面向「文档」存储
文档可序列化成 JSON/BSON ，支持嵌套
存在「 collection 」, collection ＝文档的集合
存储和构建索引能力依赖 wiredTiger 引擎
4.0后开始支持事务（多文档、跨分片多文档等）
常用 client / SDK 交互，可通过插件转译支持弱 SQL

Redis

数据结构丰富（ hash 表、 set 、 zset 、 list )
C 语言实现，超高性能
主要基于内存，但支持 AOF / RDB 持久化
常用 redis - cli ／多语言 SDK 交互

单机数据库-Elasticsearch 使用案例

屏幕截图 2023-02-12 162106.png

跟RDBMS相比，ES天然能做【模糊搜索】，还能自动算出关联程度

从单机到分布式数据库

单机数据库遇到了哪些问题&挑战，需要我们引入分布式架构来解决？

容量
弹性
性价比

分布式数据库-解决容量问题

屏幕截图 2023-02-12 162341.png

单点容量有限，受硬件限制
存储节点池化，动态扩缩容

分布式数据库-解决弹性问题

屏幕截图 2023-02-12 162519.png

分布式数据库-解决性价比问题

屏幕截图 2023-02-12 162657.png

分布式数据库-More to Do

单写 vs 多写
从磁盘弹性到内存弹性
分布式事务优化

新技术演进

新技术演进-概览

软件架构变更
- Bypass OS kernel
AI增强
- 智能存储格式转换
新硬件革命
- 存储介质变更
- 计算单元变更
- 网络硬件变更

新技术演进-SPDk

Bypass OS kernel 已经成为一种趋势

SPDK （ Storage Performance Development Kit ）

Kernel Space -> User Space
- 避免syscall带来的性能损耗，直接从用户态访问磁盘
中断﹣>轮询
- 磁盘性能提高后,中断次数随之上升，不利于I0性能
- SPDK poller 可以绑定特定的 cpu 核不断轮询，减少 cs ，提高性能
无锁数据结构
- 使用Lock-free queue ，降低并发时的同步开销

新技术演进-AI & Storage

AI领域相关技术，如Machine Learning 在很多领域：如推荐、风控、视觉领域证明了有效性

屏幕截图 2023-02-12 163318.png

新技术演进-高性能硬件

01.RDMA网络
- 传统的网络协议栈，需要基于多层网络协议处理数据包，存在用户态＆内核态的切换，足够通用但性能不是最佳
- RDMA 是 kernel bypass 的流派，不经过传统的网络协议枝，可以把用户态虚拟内存映射给网卡，减少拷贝开销，减少 cpu 开销
02.Persistent Memory
- 在 NVMe SSD 和 Main Memory 间有一种全断的存储产品： Persistent Memory
- IO 时延介于 SSD 和 Memory 之间，约百纳秒量级
- 可以用作易失性内存（ memory mode )，也可以用作持久化介质（ app - direct )
03.可编程交换机
- P4 Switch ，配有编译器、计算单元、 DRAM ，可以在交换机层对网络包做计算逻辑。在数据库场景下，可以实现缓存一致性协议等
04.CPU/ GPU / DPU
- CPU：从multi-core走向many-core
- GPU ：强大的算力＆越来越大的显存空间
- DPU：异构计算，减轻cpu的workload

总结

存储系统
- 块存储：存储软件栈里的底层系统，接口过于朴素
- 文件存储：日常使用最广泛的存储系统，接口十分友好，实现五花八门
- 对象存储：公有云上的王牌产品，immutable 语义加持
- key - value 存储：形式最灵活，存在大量的开源／黑盒产品
数据库系统
- 关系型数据库：基于关系和关系代数构建的，一般支持事务和 SQL 访问，使用体验友好的存储产品
- 非关系型数据库：结构灵活，访问方式灵活，针对不同场景有不同的针对性产品
分布式架构
- 数据分布策略：决定了数据怎么分布到集群里的多个物理节点，是否均匀，是否能做到高性能
- 数据复制协议：影响 IO 路径的性能、机器故障场景的处理方式
- 分布式事务算法：多个数据库节点协同保障一个事务的 ACID 特性的算法，通常基于2pc的思想设计

在存储 & 数据库领域，硬件反推软件变革十分常见！

带你认识存储的本质 - 状态 | 青训营笔记

带你认识存储的本质 - 状态

课程目标

经典案例

经典案例-数据的产生

经典案例-数据的流动

经典案例-数据的持久化

经典案例-潜在的问题

存储&数据库简介

存储系统-系统概览

存储系统-系统特点

存储系统-存储器层级结构

存储系统-数据怎么从应用到存储介质

存储系统-RAID技术

数据库

数据库-概览

数据库-关系型数据库特点

数据库-非关系型数据库

数据库 vs 经典存储-结构化数据管理

数据库 vs 经典存储-事务能力

数据库 vs 经典存储-复杂查询能力

数据库使用方式

主流产品剖析

单机存储-概览

单机存储-本地文件系统

单机存储-key-value存储

分布式存储-概览

分布式存储-HDFS

分布式存储-Ceph

单机数据库-概览

单机数据库-关系型数据库

单机数据库-关系型数据库

Elasticsearch

mongoDB

Redis

单机数据库-Elasticsearch 使用案例

从单机到分布式数据库

分布式数据库-解决容量问题

分布式数据库-解决弹性问题

分布式数据库-解决性价比问题

分布式数据库-More to Do

新技术演进

新技术演进-概览

新技术演进-SPDk

新技术演进-AI & Storage

新技术演进-高性能硬件

总结