ClickHouse-你没见过的列存储｜青训营笔记这是我参与「第五届青训营」伴学笔记创作活动的第 18 天 1.

数据库是结构化信息或数据的有序集合。通常由数据库管理系统（DBMS）来控制。再现实中，数据、DBMS及关联应用一起被称为数据库系统，通常简称为数据库。

关系型数据库：

关系型数据库就是把数据以表的形式进行储存，然后在各表之间建立关系，通过这些表之间的关系来操作不同表之间的数据。
非关系型数据库：

NoSQL或非关系数据库，支持存储和操作非结构化及半结构化数据。相比于关系型数据库，NoSQL没有固定的表结构，且数据之间不存在表与表之间的关系，数据之间可以是独立的。

SQL的执行：

存储引擎：

数据压缩：

数据选择：

延迟物化：

物化：将列数据转换为可以被计算或者输出的行数据或者内存数据结果的过程，物化后的数据通常可以用来作数据过滤，聚合计算，Join。

向量化：

SIMD
- SIMD(single instruction multiple data)，对于现代多核CPU，其都有能力用一条指令执行多条数据
- 用SIMD指令完成的代码设计和执行的逻辑叫做向量化
数据格式
- 数据格式要求：
  - 需要处理多个数据，因此数据需要是连续内存
  - 需要明确数据类型
执行模型
- 执行模型要求
  - 数据需要按批读取
  - 函数的调用需要明确数据类型

列存储数据库适合设计出这样的执行模型，从而是由向量化技术：

行存VS列存

	行存	列存
优点	数据被保存在一起。INSERT/UPDATE容易。	* 查询时只有涉及到的列会被读取。 * 投影（Projection）很高效。 * 任何列都能作为索引 * 便于作延迟物化和向量化计算 * 压缩效率高，每一列可以使用不同的压缩算法
缺点	选择（Selection）时即使只涉及某几个列，所有数据也都会被读取。	* 选择完成时，被选择的列要重新组装 * INSERT/UPDATE比较麻烦 * 点查询不适合
适用场景	* 点查询（返回记录少，基于索引的简单查询）。 * 增、删、改操作较多的场景	* 统计分析类查询（OLAP，比如数据仓库业务，此类型的表上会左大量的汇聚运算，且涉及的列操作较少，关联，分组操作较多） * 及时查询（查询条件不确定，行存表扫描难以使用索引）

Log-structured merge-tree(LSM tree)是一种为大吞吐写入场景而设计的数据结构

ClickHouse-你没见过的列存储 ｜ 青训营笔记