这是我参与「第四届青训营」笔记创作活动的第13天

1. Parquet简介

数据的接入、处理、存储与查询，是大数据系统不可或缺的四个环节。随着数据量的增加，大家开始寻找一种高效的数据格式，来解决存储与查询环节的痛点。

Parquet便是在这样的背景下诞生，它有三个核心特征，为解决上述的痛点问题提供了基础。

在行式存储中，一行的多列是连续的写在一起的，而在列式存储中，数据按列分开存储。由于同一列的数据类型是一样的，可以使用更高效的压缩编码进一步节约存储空间。

目前主要有三种手段，核心目的是尽可能只加载有符合数据的文件，而这些手段都能基于Parquet实现。

2. ORC详解

ORC会给包括根节点在内的中间节点都创建一个Column，嵌套类型或者集合类型支持，和Parquet差别较大，optional和repeated字段依赖父节点记录额信息来重新Assembly数据

从原理层面，最大的差别就是对于NestedType和复杂类型处理上Parquet的算法上要复杂很多，带来的CPU的开销比ORC要略大ORC的算法上相对简单，但是要读取更多的数据因此，这个差异的对业务效果的影响，很难做一个定性的判定，更多的时候还是要取决于实际的业务场景

Hudi数据湖场景下，支持部分列的快速更新

【大数据专场学习资料五】第四届字节跳动青训营 - 掘金 (juejin.cn)

Apache Parquet