简单说说列式存储数据库很多`olap`，如`druid`、`clickhouse`、`starRocks`都是列式存储数

随着业务越来越看重数据的重要性，相信大家也做了很多多维分析的需求，在调研技术选型时候，会发现很多olap，如druid、clickhouse、starRocks都是列式存储数据库，今天我们来通过对比行存储简单说下列存储

要过年回家了，今天做了核酸检测，我们就以存储核酸检测为业务场景

在行存储下（如mysql等），大家都比较熟悉，就不多说了，每条记录都是表中的每一行，表存储如下 | 姓名 | 身份证号 | 检测机构 | 检测时间 | 结果 | 价格 | |-----|-----|--|----------|-----|-----| | 彦祖 | 123512387 | 北京 | 2021-12-24 12:12:45 | 阴性 |35| | 德华 | 213124157 | 上海 | 2021-12-22 12:12:45 | 阴性 |20| | 路人甲 | 213123145 | 河南 | 2021-12-21 12:12:45 | 阴性 | 8 | | 德华 | 213124157 | 广州 | 2021-12-29 12:12:45 | 阴性 | 23| | 彦祖 | 123512387 | 上海 | 2021-12-30 12:12:45 | 阴性 | 20|
因为数据都是按行方式存储，所以在物理存储中，会以连续空间来存储数据，物理存储中，这些数据存储方式如下：

select * from 核酸记录表 where 身份证号='彦祖的身份证号'

1.先从索引查询出来彦祖的记录存储的物理地址
2.在通过物理地址去表的物理存储中查询对应地址中的数据

select sum(价格) from 核酸记录表 where 身份证号='彦祖的身份证号'

1.先从索引查询出来彦祖的记录存储的物理地址
2.在通过物理地址去表的物理存储中查询对应地址中的数据
3.拿到所有数据时候，在通过对于价格列sun聚合得到结果

1.连续空间对于插入/更新很方便
2.对于记录查询很方便

1.会查询出来很多不需要的列

`姓名`	`身份证号`	`检测机构`	`检测时间`	`结果`	`价格`
彦祖	123512387	北京	2021-12-24 12:12:45	阴性	35
德华	213124157	上海	2021-12-22 12:12:45	阴性	20
路人甲	213123145	河南	2021-12-21 12:12:45	阴性	8
德华	213124157	广州	2021-12-29 12:12:45	阴性	23
彦祖	123512387	上海	2021-12-30 12:12:45	阴性	20

彦祖|德华|路人甲|德华|彦祖

对这列值去重以后，构建一张姓名列字典表，构建算法忽略，就使用自增id的方式,如下： | id | 姓名列 | |-----|-----| |1| 彦祖 | |2| 德华 | |3| 路人甲 |
这样构建字典表，对于列存储的物理存储结构，就可以执行存储字典表中的id,而不用存储具体的值，有了字典表以后姓名列存储如下：

1|2|3|2|1

35|20|8|23|20

对这列值去重以后，构建一张价格列字典表，构建算法忽略，就使用自增id的方式,如下： | id | 价格列 | |-----|-----| |1| 35 | |2| 20 | |3| 8 | |4|23|
有了字典表以后价格列存储如下：

1|2|3|4|2

select * from 核酸记录表 where 姓名=彦祖 and 价格=20

1.对于where 姓名=彦祖
首先查询姓名字典表，查询到彦祖的id=1

2.通过查询到彦祖的id，对于性名列进行对比，构建一个bitmap，把匹配的要的列的索引位设置为1，否则为0

3.对于where 价格=20
和上面一样的操作，先查询价格字段表，20的id=2

4.通过查询到价格20的id，对于价格列进行对比，构建一个bitmap，把匹配的要的列的索引位设置为1，否则为0

5.对于两个where条件的结果bitmap做与运算，bitmap中，位为1的索引就是要查询数据的所有列的索引,如该栗子中，两个结果bitmap与运算后的结果是00001，所以所有列的第5个值，拼接起来就是我们要查询的数据

6.所以我们把所有列的第五个值拿出来组装后就是我们需要的数据

select sum(价格) from 核酸记录表 where 身份证号='彦祖的身份证号'

因为列是分开存储的，按照上面讲的查询流程，其实最后我们得到的结果bitmap，拿到位=1的索引后，我们不需要查询所有的列，只需要拿着索引去价格列中获取相应位置的值，然后在进行sum聚合

1.数据压缩比较有优势
2.任何列都可以做索引
3.查询时只有涉及到的列会被读取

1.每次查询时，都需要对查询到的列进行数据重新组装
2.插入/更新操作比较困难

列式存储数据库就说到这里，欢迎大家来交流，指出文中一些说错的地方，让我加深认识，愿大家没有bug，谢谢！