列式存储与行式存储 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第13天。 1. 列式存储和行式存储的区别数

这是我参与「第四届青训营」笔记创作活动的第13天。

1. 列式存储和行式存储的区别

数据格式层

e16790a97f3f496d8aab6ad1a2f4a874~tplv-k3u1fbpfcp-zoom-in-crop-mark 3024 0 0 0.webp

OLTP vs OLAP

OLTP 行式存储格式
- 每一行 (Row) 的数据在文件的数据空间里连续存放的
- 读取整行的效率比较高，一次顺序 IO 即可
- 在典型的 OLTP 型的分析和存储系统中应用广泛，例如：MySQL、Oracle、RocksDB 等

260e6baa0c344dde87ed966c7f240f02~tplv-k3u1fbpfcp-zoom-in-crop-mark 3024 0 0 0.webp

OLAP 列式存储格式
- 每一列 (Column) 的数据在文件的数据空间里连续存放的
- 同列的数据类型一致，压缩编码的效率更好
- 在典型的 OLAP 型分析和存储系统中广泛应用，例如：大数据分析系统：Hive、Spark，数据湖分析数据仓库：ClickHouse，Greenplum，阿里云 MaxCompute

8fd15cf2bc654e6c84b539c8d7a63cef~tplv-k3u1fbpfcp-zoom-in-crop-mark 3024 0 0 0.webp

两者比较
- OLTP 和 OLAP 作为数据查询和分析领域两个典型的系统类型，具有不同的业务特征，适配不同的业务场景。理解两者的区别可以帮助更好的理解行存和列存的设计背景

parquet
Parquet 是一种能够有效存储嵌套数据的列存储格式。(列式存储格式在文件大小和查询性能上表现优秀) Parquet 的突出贡献在于能够以真正的列式存储格式来保存具有深度嵌套结构的数据。

数据模型

数据文件布局

RowGroup: 每一个行组包含一定数量或者固定大小的行的集合，在 HDFS 上，RowGroup 大小建议配置成 HDFS Block 大小
ColumnChunk: RowGroup 中按照列切分成多个 ColumnChunk
Page：ColumnChunk内部继续切分成 Page，一般建议 8KB 大小。Page 是压缩和编码的基本单元。根据保存的数据类型，Page 可以分为：Data Page，Dictionary Page，Index Page
Footer 保存文件的元信息
- Schema、Config、 Metadata

编码
在 Parquet 的 ColumnChunk 里，同一个 ColumnChunk 内部的数据都是同一个类型的，可以通过编码的方式更高效的存储。

a168db2e30354b158756ef3c3fde97b4~tplv-k3u1fbpfcp-zoom-in-crop-mark 3024 0 0 0.webp

Bit-Pack Encoding: 对于 32位或者64位的整型数而言，并不需要完整的 4B 或者 8B 去存储，高位的零在存储时可以省略掉。适用于最大值非常明确的情况下。
Dictionary Encoding：适用于列基数 (Column) 不大的字符串类型数据存储。

压缩
完成 Encoding 以后，进行压缩。支持多种压缩算法。

f23a120655e440e6a8b451ea6a312a22~tplv-k3u1fbpfcp-zoom-in-crop-mark 3024 0 0 0.webp

索引
和传统的数据库相比，索引支持非常简陋

列式存储格式在文件大小和查询性能上表现优秀。OLTP 和 OLAP 作为数据查询和分析领域两个典型的系统类型，具有不同的业务特征，适配不同的业务场景。Parquet 是一种能够有效存储嵌套数据的列存储格式。