这是我参与「第四届青训营 」笔记创作活动的第9天
本节课程目录:
- 列存 VS 行存
- Parquet原理
- ORC详解和对比
- 列存演进
1. 列存 VS 行存
1.1 OLTP VS OLAP
1.2 OLTP:行存
1.2 OLAP:列存
2. Parquet原理详解
2.1 Dremel数据模型
每个叶子节点对应一个列表
数据格式:
编码:
压缩:
索引:
过滤下推:
上面的Dremel数据模型列存储重复值如何对应逻辑字段和物理字段呢?
3. ORC详解
3.1 数据模型
3.2 AliORC-索引增强
3.3 AliORC-小列聚合
3.4 AliORC-异步预取
3.5 Parquet VS ORC