存储与数据库理论篇｜青训营笔记前言课程目录案例讲解存储 & 数据库简介主流产品剖析新技术演进 1. 从案例

前言

第四节课：存储与数据库。

课程目录

案例讲解
存储 & 数据库简介
主流产品剖析
新技术演进

1. 从案例理解数据库

数据从产生，到数据流动，最后持久化的全生命周期。

注册案例：

小明注册一个APP，填入了用户名，密码。

用户名
密码

这里就产生了两个数据，数据根据一定的格式通过网络传输到服务器。例如现在常在使用的json格式的数据：

json
复制代码
{
    "username":"xiaoming",
    "password":"123456"
}

服务器接收到数据后，根据业务进行处理，最后持久化到数据库中。

持久化到数据库中，数据库还要做哪些事？

校验数据的合法性：比如说主键（唯一性），字段（是否匹配，长度是否符合）
修改内存：用高效的数据结构组织数据，例如B+数，红黑树
写入存储介质：以寿命 & 性能友好的方式写入硬件

问题抛出：

如何保证数据不丢？稳定的连接协议，以及持久化数据时一般会有redo log，即操作日志先被记录。
怎么处理多人同时修改的问题？使用事务来保证数据的唯一性和准确性。
除了数据库还能存到别的存储系统吗？可以，数据有多种存储方式和介质。
数据库只能处理结构化数据吗？不是，数据库还有非关系型数据库。
有哪些操作数据库的方式，要用什么编程语言？SQL是一种特定领域语言。还有客户端和SDK。

2. 存储 & 数据库简介

存储系统是用于存储数据的硬件和软件系统。它的主要目的是提供大容量的存储空间，以便用户能够保存大量的数据。（块存储、文件存储、对象存储、key-value存储）

数据库系统是一种用于组织，存储和管理数据的软件系统。可以分为关系型数据库（RDBMS）和非关系型数据库（NoSQL）两大类。

2.1 存储系统的介绍

Q：什么是存储系统？

一个提供了读写、控制类接口，能够安全有效地把数据持久化的软件，就可以称为存储系统。

这里强调的是软件，并不仅仅说的是用户和存储设备打交道，需要和一个整体的软件打交道。

存储系统的特点

作为后端软件的底座，性能敏感；
存储系统代码，“ 简单 ”（I/O操作要简单，性能要保证）又“ 复杂 ”（异常处理要考虑周全）；
存储系统软件架构，容易受硬件影响。

存储器层级结构

主要说的是“ 鱼和熊掌不可兼得 ”。

内存我们知道很快，但它容量小（8G，16G，32G），价格昂贵。
硬盘我们知道比较慢，但它容量大（500G，1T，2T），价格便宜。

Q：兼得的内容有吗？

Persistent Memory，后面会介绍。

软件层面：数据怎么从应用层到存储介质，需要注意什么？

buffer，cache（缓存很重要），因为传入时是内存数据，需要从内存写到硬盘中，速度上没有办法去匹配，所以buffer及cache很重要。也就是之前说的以寿命 & 性能友好的方式写入硬件。
拷贝的代价是昂贵的，拷贝会降低性能。
软件和硬件之间需要有一个抽象的统一接入层。

RAID技术

源于问题：单机存储系统怎么做到高性能/高性价比/高可靠性

出现的背景：

单块大容量磁盘价格 > 多块小容量磁盘
单块磁盘写入性能 < 多块磁盘的并发写入性能
单块磁盘的容错能力有限

RAID0：多块磁盘简单组合；数据条带化存储，提高磁盘带宽；没有额外的容错设计。

空间利用率高，写入带宽高
安全性低

RAID1：一块磁盘对应一块额外镜像盘；真实空间利用率仅50%；容错能力强。

空间利用率50%
安全性高

RAID0 + 1：RAID0 和 RAID1

例如：四块磁盘，两块用RAID0组合，另外两块用RAID1组合之前两块的磁盘。

空间利用率50%
容错能力好，写入带宽高。

2.2 数据库

关系型数据库 / 非关系型数据库

2.2.1 关系是什么

(22条消息) 关系数据库之父-埃德加·考特_埃德加考特_FLY1030的博客-CSDN博客

关系代数

交集，并集，笛卡尔积运算

SQL

是一种领域专用语言（DSL-Domain Specific Language），方便人类阅读的关系代数表达式。

2.2.2 关系型数据库

关系型数据库就是存储系统，此外它还有其他能力：

结构化数据友好
支持事务
支持复杂查询语言

2.2.2 非关系型数据库

也是一种存储系统，但是一般不要求严格的结构化

半结构化数据友好
可能支持事务
可能支持复杂查询语言

2.3 数据库存储 VS 经典存储系统

ROUND1 结构化数据管理

即使用数据库存储和文件存储，还是以输入数据为例子：

json
复制代码
{
    "username":"xiaoming",
    "password":"123456"
}

在关系型数据库中，即二维表的形式：

id	username	password
1	xiaoming	123456

在文件系统中，则以自定义的文件格式为主：

4bytes	4bytes	8bytes	...
整体长度:36	名称长度:8	xiaoming	...

ROUND2 事务

关系型数据库天然支持事务。

A（Atomicity）：一个事务内，要么做，要么不做
C（Consistency）：事务执行前后，数据状态是一致的
I（Isolation）：可以隔离多个并发事务，避免影响
D（Durability）：事务一旦提交成功，数据保证持久性

ROUND3 复杂查询能力

在关系型数据库中，SQL是支持对数据的复杂查询：

vbnet
复制代码
SELECT ...
FROM 表名
WHERE 条件
GROUP BY ...
HAVING ...
ORDER BY ...

3. 主流产品剖析

3.1 关系型数据库

商业：Oracle

开源：Mysql、PostgreSQL

3.2 非关系型数据库

ES
- 面向文档存储
- 文档可序列化成JSON
- Index = 文档的集合
- 存储和构建索引能力依赖Lucene引擎
- 支持RESTFUL API

操作可参考我的文章：Elasticsearch学习笔记：基础操作 - 掘金 (juejin.cn)

重点是：ES的模糊查询很厉害，它可以对内容进行的分词操作，并且根据查询内容能计算关联得分。

MongoDB
- 灵活
- 面向文档存储
- 文档可序列化成JSON/BSON
- Collection = 文档的集合
- 存储和构建索引能力依赖WiredTiger引擎
- 4.0后支持事务，多文档、跨分片多文档等
- 常用client/SDK交互
Redis
- 数据结构丰富（hash、set、zset、list）
- C语言实现，性能高
- 主要基于内存，但支持AOF/RDB持久化
- 常用redis-cli/多语言SDK交互

3.3 分布式数据库

所以存储池，到底怎么做？如何动态扩充？

解决容量问题

单机的缺点：数据库是和文件系统打交道，容量有限，受硬件限制（想象成自己的电脑就行）

分布式：数据库通过网络和存储池打交道，可以动态扩容

解决弹性问题

单机的缺点：随着业务发展，硬件跟不上了，存在硬件升级以及容量扩容（数据迁移）的问题；业务下降后，硬件性能又是过剩的存在。

分布式：和存储池打交道，无需关心实际硬件设备。

解决性价比

单机的缺点：硬件设备会有某一方面的短板。

分布式：某一方面的短板不是特别明显。

4. 新技术演进

4.1 概述

几个探索方向

软件架构变更（目前是强依赖操作系统的内核）：探讨 Bypass OS kernel

AI：智能存储格式转换（AI DB）

硬件革命：存储介质变更、计算单元变更、网络硬件变更

4.2 SPDK

Bypass OS kernel成为一种趋势。

SPDK是Bypass OS kernel中的佼佼者，它避免syscall带来的性能损耗，直接从用户态访问磁盘。

中断不利于IO性能，SPDK poller可以绑定特定的CPU核不断轮询，减少cs（上下文切换），提高性能。（有点像锁中的自旋概念）

使用Lock-free queue，降低并发时的同步开销。

4.3 AI & Storage

数据存储的转换：行存、列存两种形式。AI决策：行列混存。

4.4 高性能硬件

RDMA网络

传统的网络协议栈（TCP），需要基于多层网络协议处理数据包，存在用户态和内核态的切换，性能不是最佳的。RDMA不经过传统的网络协议栈，可以把用户态虚拟内存映射给网卡，减少拷贝开销，减少CPU开销。

Persistent Memory

在NVMe SSD 和 Main Memory之间有一种全新的存储产品： Persistent Memory。它的IO时延介于SSD和Memory之间，约百纳秒量级。可以作为内存的扩展，也可以作为持久化介质。

可编程交换机

P4 Switch，配有编译器、计算单元、DRAM，可以在交换机层对网络包做计算逻辑。在数据库场景下，可以实现缓存一致性协议等。

CPU/GPU/DPU

CPU：从几个核到很多核 GPU：强大的计算能力 DPU：异构计算，减轻CPU的工作量

存储与数据库理论篇 ｜ 青训营笔记

前言