Parquet 和 ORC的高性能列式存储|青训营笔记

2022-08-10 182 阅读4分钟

这是我参与「第四届青训营」笔记创作活动的第18天

今天带来的是列式存储

行存 vs 列存

数据格式层

数据格式层：定义了存储层文件内部的组织格式，计算引擎通过格式层的支持来读写文件

严格意义上，并不是一个独立的层级，而是运行在计算层的一个Library

分层视角下的数据形态

存储层：File，Blocks

格式层：File 内部的数据布局（Layout + Schema）

计算引擎：Rows + Columns

行式存储格式 (行存) 与 OLTP

每一行 (Row) 的数据在文件的数据空间里连续存放的

读取整行的效率比较高，一次顺序 IO 即可

在典型的 OLTP 型的分析和存储系统中应用广泛，例如：MySQL、Oracle、RocksDB 等

列式存储格式 (列存) 与 OLAP

每一列 (Column) 的数据在文件的数据空间里连续存放的

同列的数据类型一致，压缩编码的效率更好

在典型的 OLAP 型分析和存储系统中广泛应用，例如：
- 大数据分析系统：Hive、Spark，数据湖分析
- 数据仓库：ClickHouse，Greenplum，阿里云 MaxCompute

Parquet 详解

数据模型

Protocol Buffer 定义

支持可选和重复字段

支持嵌套类型

构建出如下的语法树

只有叶子节点的数据会被保存在数据文件里

数据文件布局

RowGroup: 每一个行组包含一定数量或者固定大小的行的集合，在 HDFS 上，RowGroup 大小建议配置成 HDFS Block 大小

ColumnChunk: RowGroup 中按照列切分成多个 ColumnChunk

Page：ColumnChunk内部继续切分成 Page，一般建议 8KB 大小。Page 是压缩和编码的基本单元
- 根据保存的数据类型，Page 可以分为：Data Page，Dictionary Page，Index Page

Footer 保存文件的元信息
- Schema

Config

Metadata
- RowGroup Meta
  - Column Meta

编码 Encoding

Plain直接存储原始数据
Run Length Encoding (RLE):适用于列基数不大，重复值较多的场景，例如:Boolean、枚举、固定的选项等
Bit-Pack Encoding:配合 RLE编码使用，让整形数字存储的更加紧凑
字典编码 Dictionary Encoding:适用于列基数不大的场景，构造字典表，写入到 Dictionary Page;把数据用字典Index替换，然后用RLE编码

压缩Compression

Page完成 Encoding以后，进行压缩
支持多种压缩算法
snappy:压缩速度快，压缩比不高，适用于热数据
gzip:压缩速度慢，压缩比高，适用于冷数据
zstd:新引入的压缩算法，压缩比和gzip差不多，而且
压缩速度比肩Snappy
建议选择snappy或者zstd，根据业务数据类型充分测
试压缩效果，以及对查询性能的影响

索引 Index

和传统的数据库相比，索引支持非常简陋

Min-Max Index:记录Page内部 Column的min_value和max_value Column lndex:

Footer 里的Column Metadata包含ColumnChunk的全部Page 的 Min-MaxValue

Offset Index:记录 Page在文件中的 Offset和Page的 Row Range

过滤下推 Predicate PushDown

parquet-mr 库实现，实现高效的过滤机制
引擎侧传入Filter Expression
parquet-mr转换成具体Column的条件匹配
查询Footer 里的Column lndex，定位到具体的行号
返回有效的数据给引擎侧

ORC 详解

数据模型

ORC 会给包括根节点在内的中间节点都创建一个 Column

下图中，会创建 8 个 Column

嵌套类型或者集合类型支持和 Parquet 差别较大

optional 和 repeated 字段依赖父节点记录额外信息来重新 Assembly 数据

数据布局

类似 Parquet

Rooter + Stripe + Column + Page (Row Group) 结构

Encoding / Compression / Index 支持上和 Parquet 几乎一致

ACID 特性

支持 Hive Transactions 实现，目前只有 Hive 本身集成

类似 Delta Lake / Hudi / Iceberg

基于 Base + Delta + Compaction 的设计

AliORC

ORC 在阿里云计算平台被广泛应用，主流产品 MaxCompute + 交互式分析 Hologres 的最新版本都支持 ORC 格式

AliORC 是对 ORC 的深度定制版

索引增强

支持 Clusterd Index，更快的主键查找

支持 Bitmap Index，更快的过滤
- Roaring Bitmap
  - 更高效的压缩保存 Bitmap Index
  - 以 16 bit 的 bitmap 空间为一个保存单元，每个单元可以是以下三种形式之一：
    - Array Container：只保存为 1 的 Index
    - Run Container：类似 RLE 编码
    - Bitset container：原始 bitmap 存储

其他优化

小列聚合，减少小 IO
- 重排 ColumnChunk

异步预取优化
- 在计算引擎处理已经读到的数据的时候，异步去预取下一批次数据