这是我参与「第五届青训营」伴学笔记创作活动的第 28 天

数据库基本概念

数据库是结构化信息或数据的有序集合，一般以电子形式存储在计算机系统中。通常由数据库管理系统(DBMS)来控制。在现实中，数据、DBMS及关联应用一起被称为数据库系统，通常简称为数据库。

数据解析整理成有序集合

可以通过查询语言获取想要的信息

数据库的类型（数据库类型）
- 关系数据库:关系型数据库是把数据以表的形式进行储存，然后再各个表之间建立关系，通过这些表之间的关系来操作不同表之间的数据。
- 非关系数据库: NoSQL或非关系数据库，支持存储和操作非结构化及半结构化数据。相比于关系型数据库，NoSQL 没有固定的表结构，且数据之间不存在表与表之间的关系，数据之间可以是独立的。
数据库的类型：
- 单机数据库：一台计算机完成数据的存储和查询
- 分布式数据库：由位于不同站点的两个或多个文件组成。数据可以存储在多台计算机上。
数据的类型（使用场景）：
- OLTP数据库: OLTP (Online transactional processing)数据库是一种高速分析数据库，专为多个用户执行大量事务而设计。
- OLAP数据库: OLAP (Online analytical processing)数据库旨在同时分析多个数据维度，帮助团队更好地理解其数据中的复杂关系

Clickhouse是非关系型的分布式AP数据库

OLAP数据库

OLAP数据库特点：
- 大量数据的读写，PB级别的存储
- 多维分析，复杂的聚合函数
- 窗口函数，自定义UDF(User Define Function)
- 离线/实时分析

多维展示指标，上面就是一个例子昂！

SQL

一种编程语言，目前几乎所有的关系数据库都使用SQL(Structured Query Language)编程语言来查询、操作和定义数据，进行数据访问控制。

可以用于定义数据模型，读写数据等昂！！！
优点：
1. 标准化，ISO和ANSI是长期建立使用的SQL数据库标准
2. 高度非过程化，用SQL 进行数据操作，用户只需提出“做什么”，而不必指明“怎么做”，因此用户无须了解存取路径，存取路径的选择以及SQL语句的操作过程由系统自动完成。这不但大大减轻了用户负担，而且有利于提高数据独立性。
3. 以同一种语法结构提供两种使用方式，用户可以在终端.上直接输入SQL命令对数据库进行操作作为嵌入式语言，SQL语句能够嵌入到高级语言(如C、 C#、JAVA)程序中，供程序员设计程序时使用。而在两种不同的使用方式下，SQL 的语法结构基本上是一致的。
4. 语言简洁，易学易用: SQL功能极强，但由于设计巧妙，语言十分简洁，完成数据定义、数据操纵、数据控制的核心功能只用了9个动词: CREATE、 ALTER、 DROP、SELECT、INSERT、UPDATE、DELETE、GRANT、REVOKE。且SQL语言语法简单，接近英语口语，因此容易学习也容易使用。

数据库架构

SQL的执行

Parser -> Optimizer -> Analyzer

Parser：词法分析，语法分析，生成AST(Abstract Syntax Tree)
Analyzer：变量绑定、类型推导、语义检查、安全、权限检查、完整性检查等，为生成计划做准备，例如:
- 判断a, b是不是类型正确
- a, b是不是来自表t
- group by字段是否合法，是否存在聚合函数

Optimizer：为查询生成性能最优的执行计划，进行代价评估

Executor：将执行计划翻译成可执行的物理计划并驱动其执行

存储引擎

管理内存数据结构索引内存数据缓存
- Query cache
- Data cache
- Index cache
管理磁盘数据
- 磁盘数据的文件格式
- 磁盘数据的增删查改
读写算子
- 数据写入逻辑
- 数据读取逻辑

如何存储数据?
- 是否可以并发处理
- 是否可以构建索引
- 行存，列存或者行列混合存储
如何读写数据?
- 读多写少
- 读少写多
- 点查场景
- 分析型场景

列式存储

行式存储

列式存储：

数据压缩

列式存储的优点之数据压缩：
- 数据压缩可以使读的数据量更少，在IO密集型计算中获得更大的性能优势
- 相同类型压缩效率更高
- 排序之后压缩效率更高
- 可以针对不同类型使用不同的压缩算法
LZ4压缩：

LZ4
- (5,4)代表向前5个byte,匹配到的内容长度有4，即"bcde"是一个重复
- 重复项越多或者越长，压缩率就会越高
Run-length encoding压缩：

Run-length encoding:
- 压缩重复的数据
- 可以再压缩数据上直接计算
Delta encoding压缩：

Delta encoding:
- 将数据存储为连续数据之间的差异，而不是直接存储数据本身
- 特定算子也能直接在压缩数据上计算
列式存储的优点：

数据选择:
- 可以选择特定的列做计算而不是读所有列
- 对聚合计算友好
  
  延迟物化

列式存储还有一个优势就是延迟物化哈！！！

延迟物化：物化：将列数据转换为可以被计算或者输出的行数据或者内存数据结果的过程，物化后的数据通常可以用来做数据过滤，聚合计算，Join。

尽可能要推迟物化操作的发生，延迟能够减少很多的计算资源，迫不得已才计算！！！

延时物化:
- 缓存友好
- CPU /内存带宽友好
- 可以利用到执行计划和算子的优化，例如filter
- 保留直接在压缩列做计算的机会

向量化

向量化也是列式存储的优势哈！！！

向量化方式：
- SIMD
- 数据格式
- 执行模型
SIMD对于现代多核CPU，都有能力用一条指令执行多条数据。
SIMD程序使用的指令集有SSE和AVX系列，AVX有AVX-256和AVX-512, SSE提供128-bits的寄存器，AVX- 256提供256 -bits, AVX-512提供512bits的寄存器

如果这时候CPU也可以并行的计算我们写的代码，那么理论.上我们的处理速度就会是之前代码的100倍，SIMD指令就可以完成这样的工作，用SIMD指令完成的代码设计和执行的逻辑就叫做向量化

数据格式要求：
- 需要处理多个数据，因此数据需要是连续内存
- 需要明确数据类型
执行模型要求：
- 数据需要按批读取
- 函数的调用需要明确数据类型
列存数据库适合设计出这样的执行模型，从而使用向量化技术:
- 按列读取
- 每种列类型定义数据读写逻辑
- 函数按列类型处理

行存 vs 列存

行存 vs 列存：

ClickHouse存储设计

表定义和结构

集群架构

引擎架构

存储架构

文件组织

part和partition
- part是物理文件夹的名字
- partition是逻辑结构

part和column
- 每个column都是个文件
- 所有的column文件都在自己的part文件夹下
column和index
- 一个part有一个主键索引
- 每个column都有列索引

索引设计

Hash Index

Hash Index：
1. 将输入的key通过一个HashFunction映射到一组bucket.上
2. 每个bucket都包含一个指向一条记录的地址
3. 哈希索引在查找的时候只适用于等值比较

B-Tree

数据写入是有序的，支持增删查改
每个节点有多个孩子节点
每个节点都按照升序排列key值
每个key有两个指向左右孩子节点的引用
- 左孩子节点保存的key都小于当前key
- 右孩子节点的保存的key都大于当前key

B+Tree

所有的数据都存储在叶子节点，非叶子节点只保存key值
叶子节点维护到相邻叶子节点的引用
可以通过key值做二分查找，也可以通过叶子节点做顺序访问

对于ClickHouse:
- 对于大数据量，B(B+)-Tree深度太高
- 引数据量太大，多个列如何平衡查询和存储
- OL AP场景写入量非常大，如何优化写入

LSM-Tree

LSM-Tree

Log-structured merge- tree (LSM tree)是一种为大吞吐写入场景而设计的数据结构着重优化顺序写入
主要数据结构：
1. SSTables
2. Memtable

SSTables
1. Key按顺序存储到文件中，称为segment
2. 包含多个segment
3. 每个segment写入磁盘后都是不可更改的，新加的数据只能生成新的segment
Memtable：
- 在内存中的数据保存在memtable中，大多数实现都是一颗Binary search tree
- 当memtable存储的数据到达一定的阈值的时候，就会按顺序写入到磁盘
数据查询：
- 需要从最新的segment开始遍历每个key
- 也可以为每个segment建一个索引，例如：

Compaction

Compaction (合并)
- Compaction指将多个segments合并成一个segments的过程
- 一般是有一个后台线程完成
- 不同的segments写入新的segment的时候也是需要排序，形成新的segment之后，旧的segment文件就会被删除

索引实现

主键索引

数据按照主键顺序依次做排序
- 首先按照UserlD做排序
- 再按照URL排序
- 最后是EventTime

数据被划分为granules

granules是最小的数据读取单元
不同的granulas可以并行读取

每个granule都对应primary.idx里面的一行

默认每8192行记录主键的一行值，primary.idx需要被全部加载到内存里面

里面保存的每一行数据，被称为一个index mark

每个列都有这样一个mark文件
1. mark文件保存的是每个granules的物理地址
2. 每一列都有一个自己的mark文件
mark文件里面的每一行保存两个地址:
1. block _offset：用于定位一个granule的压缩数据在物理文件中的位置，压缩。数据会以一个block为单位解压到内存中。
2. granule_offset，用于定位一个granule在解压之后的block中的位置。