认识存储&数据库|青训营笔记

用户2453351036150

2023-02-12 72 阅读4分钟

前言

这是我参与【第五届青训营】伴学笔记创作活动第十五天，今天学习的主要内容是认识存储和数据库，主流产品剖析，和新技术的演进。

正文

1. 经典案例

数据的流动
数据的持久化：效验数据的合法性，修改内存，写入存储介质。
潜在问题：
数据库怎么保证数据不丢。数据库怎么处理多人同时修改的问题。为什么用数据库，除了数据库还能用别的存储系统吗。数据库智能结构化数据吗。有哪些操作数据库的方式，要用什么编程语言。

2.存储系统

- 系统概览

存储系统定义：一个提供了读写，控制类借口，能够安全有效地把数据持久化的软件，就可以称为存储系统。
系统特点：存储系统软件架构，容易受硬性影响。作为后端软件的底座，性能敏感。存储系统代码，既“简单”又“复杂”
存储器层级结构：
数据怎么从应用到存储介质：【缓存】很重要，贯穿整个存储系统。【拷贝】很昂贵，应该尽量减少。硬件设备五花八门，需要有抽象统一的接口。
RAID技术
单机存储系统怎么做到高性能/高性价比/高可靠性:R(edundant）A（rray）of I(nexpensive)D(isks)
RAID出现背景：
单纯大容量磁盘价格>多块小容量磁盘
单块磁盘写入性能<多块磁盘的并发写入性能：RAID 0:多块磁盘简单组合，数据条带化存储，提高磁盘带宽，没有额外的容错设计。RAID 1：一块磁盘对应一块额外镜像盘，真实空间利用率仅50%。容错能力强。RAID 0+1:结合了RAID 0和RAID 1，真实空间利用率只有50%，容错能力强，写入带宽好。
单块磁盘的容错能力有限，不够安全。

- 数据库

关系型数据库：
关系=集合=任意元素组成的若干有序偶对，反应了事物间关系，
关系代数=对关系作运算的抽象查询语言
SQL=一种DSL=方便人类阅读的关系代数表达形式
关系型数据是存储系统，但在存储之外，又发展其他能力：结构化数据友好，支持事务(ACID)，支持复杂查询语言。
非关系型数据特点：
非关系型数据库也是存储系统，但是一般不要求严格的结构化
数据库vs经典存储-事务能力（凸显出数据库支持事务的优越性）
A（timicity）：事务内的操作要么全做，要么全不做。
c（onsistency），事务执行前后，数据状态是一致的
I（solation）可以隔离多个并发事务，避免影响
D（urability）事务一旦提交成功，数据保持持久性。
复杂查询能力：数据库灵活简洁，经典：僵化复杂

3.主流产品剖析

- 单机存储系统=单个计算机节点上存储软件系统，一般不涉及网络交互。

本地文件系统：
Linux经典哲学：一切皆文件
文件系统管理单元：文件
文件系统接口：文件系统繁多
Linux文件系统的两大数据结构：Index Node &Directory Entry
- Index Node：记录文件的元数据：如id，大小，权限，磁盘位置等。inode是是一个文件夹的唯一标识，会被存储到磁盘上。innode总数的格式化文件系统时就固定了。
Diretory Entry：记录文件名，inode指针，层级关系（parpent）。dentry是内存结构，与inode的关系是N:1（hardlink的实现）。
key-value：世间一切皆key-value(key是身份证，value是你的内涵：）
常用使用方式：put（k，v）&get（k）
常见数据结构：LSM-tree，某种程度上牺牲读性能，追求写入性能。
拳头产品：RocksDB。

- 分布式存储系统-HDFS

HDFS：堪称大数据时代的基石。
时代背景：专用的高级硬件很贵，同时数据存量很大，要求朝高吞吐。
HDFS核心特点：支持海量数据、存储高容错性、弱POSIX语义、使用普通x86服务器，性价比比较高。

- 分布式存储——Ceph

Ceph：开源分布式存储系统里的万金油
核心特点：一套系统支持对象接口，块接口，文件接口，但是一切皆对象。数据写入采用主被复制模型。数据分布模型采用CRUSH算法（HASH+权重+随机抽签）

- 单机数据库

- 关系型数据库

商业产品-Oracle称王，开源产品Mysql&PostgreSQL称霸

- 非关系型数据库

微信图片_20230212215256.jpg

- 分布式数据库

解决问题：解决容量问题，解决弹性问题，解决性价比问题。