带你认识存储 & 数据库 | 青训营

66 阅读6分钟

存储系统

什么是存储系统?

一个提供了读写、控制类接口,能够安全有效地把数据持久化的软件,就可以称为存储系统。

存储系统作为软件的底座,对性能敏感,存储系统代码即“简单”又“复杂”,存储系统软件架构,容易受硬件影响。

RAID技术

单机存储系统怎么做到高性能、高性价比、高可靠性?

RAID(Redundant Array Of Inexpensive Disks)

RAID出现的背景:

  • 单块大容量磁盘的价格 > 多块小容量磁盘
  • 单块磁盘的写入性能 < 多块磁盘的并发写入性能
  • 单块磁盘的容错能力有限,不够安全

数据库

关系 = 集合 = 任意元素组成的若干有序偶对,反应了事件间的关系。

关系代数 = 对关系作运算的抽象查询语言(交、并、笛卡尔积)

SQL = 一种DSL = 方便人类阅读的关系代数表达形式

关系型数据库

关系型数据库是存储系统,但是在存储之外,又发展出其他能力。

关系型数据库对结构化数据友好,支持事务(ACID),支持复杂查询语言。

数据写入关系型数据库,以表的形式管理。

事务具有以下四个特性:

  • Atomicity,事务内的操作要么全做,要么不做。
  • Consistency,事务执行前后,数据状态是一致的。
  • Isolation,可以隔离多个并发事务,避免影响。
  • Durability,事务一旦提交超过,数据保证持久性。

非关系型数据库

非关系型数据库也是存储系统,但是一般不要求严格的结构化。

非关系型数据库对半结构化数据友好,可能支持事务(ACID),可能支持复杂查询语言。

单机存储

单机存储 = 单个计算机节点上的存储软件系统,一般不涉及网络交互。

例如本地文件系统和key、value存储。

本地文件系统

例如Linux,在Linux中,一切皆文件。

文件系统的管理单元:文件

文件系统接口:文件系统繁多,如Ext2/3/4,sysfs,rootfs等,但都遵循VFS的统一抽象接口。

Linux文件系统的两大数据结构:Index Node & Directory Entry。

Index Node:记录文件元数据,如id、大小、权限、磁盘位置等。inode是一个文件的唯一标识,会被存储到磁盘上,inode的总数在格式化文件系统时就固定了。

Directory Entry:记录文件名、inode指针,层级关系(parent)等。dentry是内存结构,与inode的关系是N:1(hardlink的实现)。

key、value存储

常见使用方式:put(k, v) & get(k)。

常见数据结构:LSM-Tree,某种程度上牺牲读性能,追求写性能。

分布式存储

分布式存储 = 在单机存储基础上实现了分布式协议,涉及大量网络交互。

分布式文件系统

HDFS:堪称大数据时代的基石。

HDFS核心特点:

  • 支持海量数据存储
  • 高容错性
  • 若POSIX语义
  • 使用普通x86服务器,性价比高

分布式对象存储

Ceph : 开源分布式存储系统里的万金油。

Ceph的核心特点:

  • 一套系统支持对象接口、块接口、文件接口,但是一切皆对象。
  • 数据写入采用主备复制模型。
  • 数据分布模型采用CRUSH算法。

单机数据库

单机数据库 = 单个计算机节点上的数据库系统。

事务在单机内执行,也可能通过网络交互实现分布式事务。

单机关系型数据库

关系型数据库的通用组件:

  • Query Engine:负责解析query,生成查询计划。
  • Txn Manager:负责事务并发管理。
  • Lock Manager:负责锁相关的策略。
  • Storage Engine:负责组织内存/磁盘数据结构。
  • Replication:负责主备同步。

关键内存数据结构:B-Tree、B+-Tree、LRU List等。

关键磁盘数据结构:WriteAheadLog(Redelog)、Page。

单机非关系型数据库

关系型数据库一般直接使用SQL交互,而非关系型数据库交互方式各不相同。

非关系型数据库的数据结构千奇百怪,没有关系约束后,schema相对灵活。

不管是否关系型数据库,大家都在尝试支持SQL(子集)和“事务”。

分布式数据库

分布式数据库是为了解决单机数据库中存在的某些问题,如容量、弹性、性价比。

容量:单机容量有限,受硬件限制。分布式数据库将存储节点池化,动态扩容。

总结

存储系统是一种提供读写和控制接口,可以安全有效地将数据持久化的软件系统。在存储系统中,RAID技术被用于实现高性能、高性价比和高可靠性。RAID(Redundant Array Of Inexpensive Disks)通过将多块小容量磁盘组合起来,提供了更大的容量、更高的写入性能以及容错能力,从而改进了单机存储的特性。

关系型数据库和非关系型数据库是两种不同类型的存储系统。关系型数据库以表的形式管理结构化数据,支持事务和复杂查询语言,如SQL。非关系型数据库则更适用于半结构化数据,可能支持事务和复杂查询,但通常不要求严格的结构。

在单机存储中,本地文件系统是一种基本的存储形式,将数据以文件和目录的形式进行管理。另一种形式是键值存储,通过简单的键值对进行数据的存取。

分布式存储是在单机存储基础上引入了分布式协议和网络交互的概念。分布式文件系统如HDFS支持海量数据存储和高容错性。分布式对象存储如Ceph则提供了对象、块和文件接口,采用主备复制模型和数据分布算法。

单机数据库是指单个计算机节点上的数据库系统,可以是关系型或非关系型。事务在单机内执行,也可以通过网络交互实现分布式事务。关系型数据库具有通用的组件如查询引擎、事务管理、锁管理、存储引擎和主备同步。非关系型数据库的数据结构更加灵活,通常支持SQL子集和事务功能。

分布式数据库旨在解决单机数据库的容量、弹性和性价比问题。通过在存储节点上池化存储容量,分布式数据库可以动态扩展,实现更高的容量和弹性。