Parquet 与 ORC：高性能列式存储｜青训营笔记

2022-08-09 178 阅读6分钟

Parquet 与 ORC：高性能列式存储｜青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第11天。

一、课程概述

介绍数据的不同存储方式行存和列存
介绍parquet的数据模型和实现
介绍ORC的模型和实现
介绍列存的演进与未来

二、详细内容

1. 行存与列存

1.1 数据格式层

定义数据的布局
连接计算引擎和存储服务

1.2 分层视角下的数据形态

存储层：file，blocks
格式层：file内部数据布局（layout+schema）
计算引擎：rows+columns

1.3 OLTP vs OLAP

Screen Shot 2022-08-06 at 4.14.52 AM.png

1.4 OLTP：行式存储格式

每行数据在文件上是连续存储的
读取整行数据效率高，单次IO顺序读即可
典型系统
- 关系型数据库：MySQL、Oracle
- Key-Value数据库

1.5 OLAP：列式存储格式

每列数据在文件上连续存储
读取整列效率较高
同列数据类型一致，压缩编码效率好
典型系统
- 大数据分析系统：SQL-on-Hadoop、数据湖分析
- 数据仓库：ClickHouse、Greenplum、阿里云MaxCompute

2. Parquet详解

2.1 Parquet简介

大数据分析领域使用最广的列存格式
Spark推荐存储格式
Github
- parquet-format：格式定义
- parquet-mr：Java实现

2.2 Parquet in action-

DDL

CREATE TABLE XX ()
STORED AS PARQUET TBLPROPERTIES...

Spark
- 生成的文件会有.parquet后缀
vs txt
- 高效压缩，文件大小小
parquet-cli查看文件具体信息

2.3 Dremel数据模型

protocol buffer定义
支持可选和重复字段
支持嵌套类型
- 嵌套类型只保存叶子节点数据
- 列可能为optional或repeated，如何对应到record？

2.4 数据布局

rowgroup：每一行组包含一定数量或固定大小的行集合
columnchunk：rowgroup按照列切分成多个columnchunk
page：columnchunk内切分为page，一般8kb大小，压缩和编码基本单元
footer保存文件元信息

2.5 编码 encoding

plain 直接存储原始数据
RLE：runtime length encoding 适用于列基数不大，重复值较多的场景
- bit-pack encoding：配合RLE使用，让整形数字存储更紧凑
字典编码 dictionary encoding：适用于列基数不大的场景，构造字典表，写入到dictionary page，把数据用字典index替换然后用RLE编码
默认parquet-mr会根据数据特征进行选择
业务自定义

2.6 压缩 copression

page完成encoding后进行压缩
多种算法
- snappy压缩快、压缩比不高、适用于热数据
- gzip：压缩慢、压缩比高、适用于冷数据
- zstd综合两种

2.7 索引 index

索引支持非常简陋
min-max：记录page内column的min和max
column index：footer里column metadata包含columnchunk全部page的min-max value
offset index：page在文件中的offset和page的row range
bloom-filter
- 对于列基数比较大、非排序列的过滤，min-max难发挥作用
- bloom-filter加速过滤匹配判断
- columnchunk头部保存bloom filter数据
- footer记录filter的page offset

2.8 排序 ordering

聚集索引
帮助更好的过滤掉无关rowgroup或page
对少量数据seek有帮助
format支持sorting columns
依赖业务侧根据查询特征保证顺序

2.9 过滤下推 predicate pushdown

依赖parquet-mr库实现，实现高效过滤机制
引擎侧传入Filter Expression
parquet-mr转换成具体column的条件匹配
查询footer内column index，定位具体行号
返回有效的数据

2.10 Spark集成-向量化读

parquetFileFormat类
主流大数据分析引擎的标准实践、极大提升查询性能
以batch形式从parquet读取，下推逻辑也适配batch形式

2.11 repetition level

该字段在field path上第几个重复字段上出现
0:标识新的record
name.language.code为例，name是第一个重复字段，language是第二个
definition level用来记录在field path中多少个字段可以是不存在，而实际出现的

2.12 re-assembly

根据全部或者部分列数据，重新构造record
实现方法：构造FSM状态机
根据同一个column下一个记录的repartition level决定继续读的列

3. ORC详解

3.1 ORC简介

大数据分析领域使用最广的列存格式之一
出自于Hive 模型

3.2 数据模型

ORC会给包括根节点在内的中间节点都创建一个column
嵌套类型或集合类与parquet差别较大
optional和repeated字段依赖父节点记录额外信息来重新assemble数据

3.3 数据布局

类似parquet
rooter+stripe+column+page（rowgroup）结构
encoding/compression/index支持上与parquet基本一致

3.4 ACID特性

支持Hive Transactions实现，只有Hive本身即成
类似数据湖三剑客
基于Base+Delta+compaction设计

3.5 AliORC

在阿里云计算广泛应用，是ORC深度定制版
索引增强
- 支持clustered index，更快的主键查找
- 支持bitmap index，更快过滤
  - roaring index
小列聚合
- 聚合较小列减少小IO
- 重排chunk
异步预取
- 异步预取数据，计算逻辑和数据读取并行化

3.6 Parquet和ORC对比

原理层面最大差别就是nested type和复杂类型处理上
parquet算法上要复杂很多，带来CPU开销比ORC略大
ORC算法上相对简单，但是要读取更多数据
取决于业务场景决定优势
性能
- parquet在复杂schema下算法开销影响较大
- 在spark场景下parquet工作更好，Hive场景下ORC更好
选择
- 没有明显差距
- 依赖于数据集和测试环境
- 根据实际业务做充分测试调优
- Spark生态下parquet较普遍，Hive生态下ORC有原生支持
- 整体上Spark比Hive更有优势，所以Parquet可能比ORC更好

4. 列存演进

4.1 数仓中的列存

ClickHouse的MergeTree引擎基于列存构建
默认情况下列按照column拆分
支持更加丰富的索引
湖仓一体大趋势

4.2 存储侧下推

更多下推工作下沉到存储服务侧
越接近数据下推过滤效率越高
例：AWS S3
挑战：存储侧感知schema/计算生态兼容集成

4.3 column family支持

Hudi数据湖场景下支持部分列快速更新
在parquet格式内引入column family概念，把需要更新的列拆成独立的column family
深度改造hudi的update和query逻辑，根据column family选择覆盖
update操作实际效果10+倍提升

三、个人总结

本节课我学习了行存和列存的不同之处，并且接触了列存的常规实现方式如parquet和ORC等。列存是非常重要的存储格式，它在实际运用层面拥有比行存更好的空间利用率与更好的按列读取能力。parquet和ORC等是列存实际的实现，而列存也在不断演进之中。