存储与数据库学习笔记 | 青训营一、经典案例--数据的生命周期 1.1 案例分析小明第一次登陆时某APP时，注册账号，

一、经典案例--数据的生命周期

1.1 案例分析

小明第一次登陆时某APP时，注册账号，产生新的信息，数据从无到有的产生了，飞奔向后端服务器用户注册数据字段：username，password，pwd_hint...这些都是结构化数据

数据飞奔向后端服务器之后，持久化进入数据库，同时，后端可能还有其他系统

为什么要持久化？--内存没有记忆能力

1.2 数据库接收到数据的操作

校验数据合法性：username：“小明”是否存在？
修改内存：使用高效数据结构组织数据
写入存储介质：以寿命&性能友好的方式写入硬件

1.3 潜在的问题

数据库怎么保证数据不丢？
如何处理多人同时修改的问题？
是否可以存储到别的存储系统？
数据库只能处理结构化数据吗？
有哪些操作数据库的方式？要用什么编程语言？

二、存储&数据库简介--经久不衰的技术

2.1 系统特点

什么是存储系统？

一个提供了读写、控制类接口，能够安全有效地把数据持久化的软件需要关注：用户、介质、内存、网络

存储系统的特点

性能敏感：作为后端软件的底座
代码既“简单“又”复杂“：不影响性能，但要考虑多种数据
容易受硬件影响：存储系统软件架构

2.2 存储器层级结构

容量由高到低，速度由慢到快，价格由低到高 ”Persistent Memory“ -- 见后续

存储链路尽量减少拷贝（昂贵，耗费cpu性能），缓存很重要，硬件五花八门，需要有抽象统一的接口

2.3 RAID技术

Redundant Array of Inexpensive Disks

RAID出现的背景∶

单块大客量磁盘的价格>多块小容量磁盘
单块磁盘的写入性能<多块磁盘的并发写入性能
单块磁盘的容错能力有限,不够安全

2.4 数据库

难道存储系统和数据库不一样吗？

数据库分为关系型数据库和非关系型数据库

关系型数据库

关系（Relation）又是什么？

关系 = 集合反应事物间的关系

关系代数：对关系作运算的抽象查询语言

SQL = 一种DSL = 方便人类阅读的关系代数表达形式

关系型数据库的特点

对结构化数据友好
支持事务（ACID）
支持复杂查询语言（SQL）

非关系型数据库

也是存储系统，一般不要求严格的结构化

非关系型数据库的特点：

半结构化数据友好
可能支持事务
可能支持SQL

2.5 数据库 VS 经典存储

结构化数据管理

数据库：写入关系型数据库：以表形式管理经典存储：写入文件：自行定义管理结构（和bytes打交道）

事务能力

凸显出数据库支持事务的优越性

事务具有:

A(tomicity)：事务内的操作要么全做，要么不做
C(onsistency)，事务执行前后，数据状态是一致的
l(solation)，可以隔离多个并发事务，避免影响
D(urability)，事务一旦提交成功，数据保证持久性

复杂查询能力

SQL查询更灵活简洁，经典存储用编程语言写代码查询很复杂

三、主流产品剖析--学习架构

3.1单机存储

单机存储 = 单个计算机节点上的存储软件系统，不涉及网络交互

本地文件系统

Linux经典哲学：一切皆文件

文件系统的管理单元：文件

文件系统接口︰文件系统繁多，如Ext2/3/4，sysfs，rootfs等，但都遵循VFS的统一抽象接口

Linux文件系统的两大数据结构: Index Node & Directory Entry

ndex Node 记录文件元数据，如id、大小、权限、磁盘位置等inode是一个文件的唯一标识,会被存储到磁盘上inode的总教在格式化文件系统时就固定了

Directory Entry 记录文件名、inode指针，层级关系(parent)等 dentry是内存结构，与inode的关系是N:1(hardlink的实现)

Key-Value存储

世间一切皆key-value —— key是你身份证，value是你的内涵:)

常见使用方式: put(k, v)& get(k)

常见数据结构:LSM-Tree，某种程度上牺牲读性能，追求写入性能

拳头产品:RocksDB

3.2分布式存储

分布式存储=在单机存储基础上实现了分布式协议，涉及大量网络交互

分布式存储--HDFS

HDFS: 堪称大数据时代的基石

时代背景:专用的高级硬件很贵,同时数据存量很大,要求超高吞吐

HDFS核心特点：

支持海量数据存储
高容错性
弱POSIX语义（某些单机文件系统不支持）
使用普通x86服务器,性价比高

分布式存储--Ceph

Ceph :开源分布式存储系统里的「万金油」 Ceph的核心特点︰

一套系统支持对象接口、块接口、文件接口
一切皆对象
写入采用主备复制模型
数据分布模型采用CRUSH算法

3.3单机关系型数据库

单机数据库=单个计算机节点上的数据库系统

事务在单机内执行,也可能通过网络交互实现分布式事务

商业产品Oracle称王,开源产品MySQL & PostgreSQL称霸

3.4单机非关系型数据库

MongoDB、Redis、Elasticsearch三足鼎立（各自的介绍请自行查找）

关系型数据库一般直接使用SQL交互,而非关系型数据库交互方式各不相同

非关系型数据库的数据结构千奇百怪,没有关系约束后, schema相对灵活

不管是否关系型数据库,大家都在尝试支持SQL(子集)和“事务”

3.5分布式数据库

单机数据库遇到的问题&挑战：

容量：单机容量有限，受硬件限制（本地文件系统--磁盘）解决：存储节点池化，动态扩缩容
弹性：增加业务后cpu资源紧张，扩容时间漫长解决：池化存储系统
性价比：扩容时性价比不高，cpu浪费严重解决：依然是池化

更多的问题 More to DB：

单写 VS 多写
磁盘弹性到内存弹性
分布式事务优化

四、新技术演进--如何结合前沿技术

4.1 概览

三大方向：

软件架构变更：Bypass OS Kernel
AI增强：智能存储格式转化
新硬件革命：存储介质、计算单元、网络硬件

4.2 SPDK

Bypass OS kernel已经成为一种趋势简而言之：使用用户态访问磁盘，避免进入内核态；使用轮询方式，避免中断；使用无锁数据结构，降低并发时的同步开销

4.3 AI & Storage

数据存储格式转换， AI领域相关技术，如Machine Learning在很多领域:如推荐、风控、视觉领域证明了有效性

4.3 高性能硬件

RDMA网络
Persistent Memory
可编程交换机
CPU/GPU/DPU

五、总结

这节课从经典案例出发，很详细的介绍了数据、数据库、存储结构的概念、架构，以及未来的技术发展趋势。学习之后我对数据库也有了更加全面的理解，而不仅仅是停留在SQL阶段，如果大家有兴趣可以尝试自己实现一个Key-Value数据库，继续深入存储领域。