列式存储

下面是一个表段

id    time      name
1  2022-08-05   John
2  2022-09-04   Rose
3  2023-02-20   Ben

针对该表段，有：

行式存储： 1 2022-08-05 John, 2 2022-09-04 Rose

列式存储：1, 2, 3, 2022-08-05 2022-09-04 2023-02-20

列式存储的优点：

延时物化

物化的概念：将列数据转换为可以被计算或者输出的行数据或者内存数据结果的过程，物化后的数据通常可以用来做数据过滤、聚合计算、Join计算等操作

延时物化的概念：尽量推迟物化操作

优点：

SIMD：Single Instruction Multiple Data，CPU用一条指令执行多条数据。

如果CPU能够并行计算我们的代码，理论上处理速度会大大增加，SIMD指令就可以完成这样的操作。

用SIMD指令完成的代码设计和执行的逻辑就叫做向量化。

那么为了实现该技术，列式数据库有怎么样的设计模型？

ClickHouse针对该特性有更新的表设计理念。

两个概念词汇：

cluster：逻辑集群，由多个节点组成

shard_key：指导数据写入分布式表时的分布方式

Hash Index：将输入的Key通过哈希函数映射到一组Bucket上，每个Bucket都包含一个指向一条记录的地址。 哈希索引在查找的时候适用于等值比较

B树、B+树索引（数据都存储在孩子节点）

LSM-Tree：Log Structured merge Tree

一种为大吞吐写入场景而设计的数据结构。有两个branch:

未完待续~