1 存储 & 数据库系统

Paper: Google File System

1.1 经典案例

数据的全生命周期：

数据的产生 ==> 数据的流动（终端到后端服务器到数据库系统到其它系统） ==> 数据的持久化（校验数据的合法性、用高效的数据结构组织数据并修改内存、以寿命&性能友好的方式写入存储介质）

为什么要持久化？如果不做持久化，数据仅存储在服务器的内存中，而内存没有记忆能力，用户使用应用程序会很麻烦，所以要将一些数据永久记忆下来。

数据从用户端产生（在用户注册的时候），服务器收到用户信息之后如果不保存下来，用户每一次使用都要去注册，不符合常理，所以要通过一些技术将数据永久保存下来。

1.2 存储&数据库简介

1.2.1 存储系统

存储系统：一个提供了读写、控制类接口，能够安全有效地把数据持久化的软件，就可以称为存储系统。

存储系统 = 用户 + 存储介质 + 内存 + 网络

存储系统的特点：

作为后端软件的底座，性能敏感
存储系统软件架构，容易受硬件影响：硬件更新，存储系统要推翻重来
存储系统代码，既“简单”又“复杂”：要考虑硬件损坏，所以会复杂

RAID技术（冗余磁盘阵列技术）

Q：单机存储系统怎么做到高性能/高性价比/高可靠性？

A：R(edundant) A(rray) of I(nexpensive) D(isks)

RAID出现的背景：

单块大容量磁盘的价格 > 多块小容量磁盘
单块磁盘的写入性能 < 多块磁盘的并发写入性能
单块磁盘的容错能力有限，不够安全

充分说明合作的力量

RAID 0

多块磁盘简单组合
数据条带化存储，提高磁盘带宽
没有额外的容错设计

RAID 1

一块磁盘对应一块额外镜像盘
真实空间利用率仅50%
容错能力强

RAID 0 +1

结合了RAID 0 和 RAID 1
真实空间利用率仅50%
容错能力强，写入带宽好

1.2.2 数据库系统

数据库和存储系统的区别：

数据库分为关系型数据库和非关系型数据库。关系型数据库是存储系统，但是在存储之外，又发展出其他能力，包括结构化数据友好、支持事务（ACID）和支持复杂查询语言。非关系型数据库也是存储系统，但是一般不要求严格的结构化。非关系型数据库半结构化数据友好，可能支持事务（ACID），可能支持复杂查询语言。
数据库和经典存储系统相比，具有支持事务的优越能力。事务具有：A(tomicity)，事务内的操作要么全做，要么不做；C(onsistency)，事务执行前后，数据状态是一致的；I(solation)，可以隔离多个并发事务，避免影响；D(urability)，事务一旦提交成功，数据保证持久性。
数据库和经典存储系统相比，具有支持复杂查询的能力，包括分组、排序和筛选等。

Everything is D(omain) S(pecific) L(anguage) ==> maybe SQL

1.3 主流产品剖析

1.3.1 单机存储

单机存储 = 单个计算机节点上的存储软件系统，一般不涉及网络交互

本地文件系统

Linux经典哲学：一切皆文件

文件系统的管理单元：文件

文件系统接口：文件系统繁多，如Ext2/3/4，sysfs，rootfs等，但都遵循VFS的统一抽象接口

Linux文件系统的两大数据结构：Index Node&Directory Entry

Index Node

记录文件元数据，如id、大小、权限、磁盘位置等
inode是一个文件的唯一标识，会被存储到磁盘上
inode的总数在格式化文件系统时就固定了

Directory Entry

记录文件名、inode指针，层级关系（parent）等
dentry是内存结构，与inode的关系是N：1（hardlink的实现）

key-value存储

世间一切皆key-value：key是你身份证，value是你的内涵：）

常见使用方式：put(k, v)&get(k)

常见数据结构：LSM-Tree，某种程度上牺牲读性能，追求写入性能

拳头产品：RocksDB

1.3.2 分布式存储

分布式存储 = 在单机存储基础上实现了分布式协议，涉及大量网络交互

分布式文件系统-HDFS

HDFS：堪称大数据时代的基石

时代背景：专用的高级硬件很贵，同时数据存量很大，要求超高吞吐

HDFS核心特点：

支持海量数据存储
高容错性
弱POSIX语义
使用普通x86服务器，性价比高

分布式对象存储-Ceph

Ceph：开源分布式存储系统里的「万金油」

Ceph的核心特点：

一套系统支持对象接口、块接口、文件接口，但是一切皆对象
数据写入采用主备复制模型
数据分布模型采用CRUSH算法：HASH+权重+随机抽签

1.3.3 单机关系型数据库

单机数据库 = 单个计算机节点上的数据库系统

事务在单机内执行，也可能通过网络交互实现分布式事务

1.3.4 单机非关系型数据库

跟RDBMS相比，ES天然能做模糊搜索，还能自动算出关联程度

1.3.5 分布式数据库

单机数据库遇到了哪些问题&挑战，需要我们引入分布式架构来解决？容量问题、弹性问题和性价比问题

更多的问题：单写VS多写、从磁盘弹性到内存弹性、分布式事务优化

存储 & 数据库系统 | 青训营