这是我参与「第三届青训营 -后端场」笔记创作活动的的第5篇笔记。用于总结之前在课上学习到的存储系统和数据库的相关知识以及两者的关系。
在业务过程中,我们需要1. 数据的产生,2. 数据的流动,3. 数据持久化(保存至数据库),否则所有服务没有记忆能力,也没有保存能力。
如何保证数据的持久化:
- 校验数据的合法性(查重)
- 修改内存(用高效的数据结构组织数据)
- 写入存储介质(以寿命&性能友好的方式写入硬件)
存储系统
存储系统:一个提供了读写、控制类接口,能够安全有效地把数据持久化的软件。
- 用户(User)、介质(Medium)
- 内存(Memory):设计性能高效的操作方便的内存数据结构
- 网络(Network)编程:单机系统->分布式存储系统 满足苛刻的应用需求
系统特点:
- 作为后端软件的底座,性能敏感
- 存储系统软件架构,容易受硬件影响
- 存储系统代码,既“简单”又“复杂”(考虑多种异常情况)
存储器层级结构:
底部:容量非常大,设备访问读写速度非常慢、访问非常不友好
顶部:容量非常小,设备访问读写速度非常快、访问友好
数据如何从应用到存储介质?
- 「缓存」很重要,贯穿整个存储体系
- 「拷贝」很昂贵,应该尽量减少
- 硬件设备五花八门,需要有抽象统一的接入层
RAID
单机存储系统需要高性能/高性价比/高可靠性:
R(edundant) A(rray) of I(nexpensive) D(isks)
RAID出现的背景︰
- 单块大容量磁盘的价格 > 多块小容量磁盘
- 单块磁盘的写入性能 < 多块磁盘的并发写入性能
- 单块磁盘的容错能力有限,不够安全
RAID 0:
- 多块磁盘简单组合
- 数据条带化存储,提高磁盘带宽:一个用户写入切片分为多个写入,分别并发写在磁盘上
- 没有额外的容错设计(无冗余、备份)
RAID 1:
- 一块磁盘对应一块额外镜像盘
- 真实空间利用率仅50%
- 容错能力强
RAID 0 + 1
- 结合了RAID 0和 RAID 1
- 真实空间利用率仅50%
- 容错能力强,写入带宽好
数据库
关系 = 集合 = 任意元素组成的若干有序偶对 反应了事物间的关系
关系代数 = 对关系作运算的抽象查询语言 交、并、笛卡尔积……
SQL = 一种DSL = 方便人类阅读的关系代数表达形式
关系型数据库是存储系统,但是在存储之外,又发展出其他能力:
- 结构化数据友好
- 支持事务(ACID)
- 支持复杂查询语言(SQL)
非关系型数据库也是存储系统,但是一般不要求严格的结构化:
- 半结构化数据友好
- 可能支持事务(ACID)
- 可能支持复杂查询语言
数据库 vs. 经典存储:
-
结构化数据管理
写入关系型数据库,以表形式管理
写入文件,需要自行定义管理结构
-
事务能力
数据库支持「事务」的优越性
事务具有∶
- A(tomicity),事务内的操作要么全做,要么不做
- C(onsistency),事务执行前后,数据状态是一致的
- l(solation),可以隔离多个并发事务,避免影响.
- D(urability),事务一旦提交成功,数据保证持久性
-
复杂查询能力
数据库更加灵活整洁;
经典存储僵化复杂