这是我参与「第三届青训营 -后端场」笔记创作活动的第3篇笔记。

课程资料

存储系统

- Atomicity，事务内的操作要么全做，要么不做
- Consistency，事务执行前后，数据状态是一致的
- Isolation，可以隔离多个并发事务，避免影响
- Durability，事务一旦提交成功，数据保证持久性

ACID特性是在写入和更新资料时，为保证事务正确、可靠地执行的四个重要特性。

定义：单个计算机上的存储软件系统，一般不涉及网络交互，大致分为本地文件系统和key-value存储两种类型
Linux本地文件系统
- 管理单元：文件
- 接口：统一的VFS抽象接口
- 两大数据结构：Index Node & Directory Entry
key-value存储
- 常见使用方式：put(k,v) & get(k)
- 常见数据结构：LSM-Tree，通过牺牲部分readability, 追求writability

定义：在单机存储基础上实现了分布式协议，涉及大量网络交互。类似于单机存储，分布式存储也可大致分为分布式文件系统和分布式对象存储
比较突出的两种产品：HDFS和Ceph
HDFS
- 支持海量数据存储
- 高容错性
- 弱POSIX语义
- 使用普通x86服务器，性价比高
Ceph
- 一套系统支持对象接口，块接口，文件接口，但是一切皆对象
- 数据写入采用主备复制模型
- 数据分布模型采用CRUSH算法（HASH+权重+随机抽签）

定义：单个计算机节点上的数据库系统，事务在单机内执行，也可能通过网络交互实现分布式事务。大致分为关系型数据库和非关系型数据库
关系型数据库
- 主要产品: oracle, mysql, postgresql
非关系型数据库
- 主要产品：mongodb（面向文档）, redis（数据结构丰富，包括hash表，set，zset，list等）, elasticsearch（面向文档）
关系型vs.非关系型数据库的对比
- 关系型db一般直接使用SQL交互，而非关系型db交互方式各不相同
- 非关系型数据库的数据结构千奇百怪，没有关系约束后schema相对灵活
- 不管是否关系型数据库，大家都在尝试支持SQL子集和事务

这篇笔记主要总结了“带你认识存储&数据库”一课里对存储系统与数据库系统的详解。通过复习本笔记可帮助我深入地了解存储和数据库的对比，各存储和数据库系统、产品的优劣势。