列存储

这是我参与「第五届青训营」伴学笔记创作活动的第 12 天

概念

传统的行式数据库将一个个完整的数据行存储在数据页中。这种方式在大数据量查询的时候会出现以下问题：

1、在没有索引的情况下，会把一行全部查出来，查询会使用大量IO

2、虽然建立索引和物化视图可以可以快速定位列，但是也需要花费大量时间

但是如果处理查询时需要用到大部分的数据列，这种方式在磁盘IO上是比较高效的。一般来说，OLTP（Online Transaction Processing，联机事务处理）应用适合采用这种方式。

一个OLAP类型的查询可能需要访问几百万甚至几十亿个数据行，且该查询往往只关心少数几个数据列。例如，查询今年销量最高的前20个商品，这个查询只关心三个数据列：时间（date）、商品（item）以及销售量（sales amount）。商品的其他数据列，例如商品URL、商品描述、商品所属店铺，等等，对这个查询都是没有意义的。

列式数据库是将同一个数据列的各个值存放在一起。插入某个数据行时，该行的各个数据列的值也会存放到不同的地方，也就是说列存储是在逻辑上整理为包含行和列的表，实际上以列式数据格式存储的数据。

使用场景

列式数据库更适合于OLAP场景(对于大多数查询而言，处理速度至少提高了100倍)

针对分析类查询，通常只需要读取表的一小部分列。在列式数据库中你可以只读取你需要的数据。例如，如果只需要读取100列中的5列，这将帮助你最少减少20倍的I/O消耗。
由于数据总是打包成批量读取的，所以压缩是非常容易的。同时数据按列分别存储这也更容易压缩。这进一步降低了I/O的体积。
由于I/O的降低，这将帮助更多的数据被系统缓存

列存储 ｜ 青训营笔记

列存储

概念

使用场景

列存储｜青训营笔记