Parquet与ORC:高性能列式存储 | 青训营笔记

83 阅读1分钟

这是我参与「第四届青训营 」笔记创作活动的第9天


本节课程目录:

  1. 列存 VS 行存
  2. Parquet原理
  3. ORC详解和对比
  4. 列存演进

1. 列存 VS 行存

1.1 OLTP VS OLAP
image.png 1.2 OLTP:行存 image.png 1.2 OLAP:列存 image.png


2. Parquet原理详解

2.1 Dremel数据模型
image.png image.png 每个叶子节点对应一个列表
数据格式: image.png 编码:
image.png 压缩:
image.png 索引:
image.png 过滤下推:
image.png 上面的Dremel数据模型列存储重复值如何对应逻辑字段和物理字段呢?
image.png image.png


3. ORC详解

image.png 3.1 数据模型
image.png 3.2 AliORC-索引增强
image.png 3.3 AliORC-小列聚合
image.png 3.4 AliORC-异步预取 image.png 3.5 Parquet VS ORC image.png


4. 列存演进

image.png