浅析列式存储格式Parquet和ORC | 青训营大数据作业简化来说就是从存储服务取数据，由计算引擎对数据进行解析和计算

这是我参与「第四届青训营」笔记创作活动的第14天。

引言

大数据作业简化来说就是从存储服务取数据，由计算引擎对数据进行解析和计算，最后将结果存储或可视化展示。
影响大数据计算作业性能的关键因素
1. 如何高效从存储读取所需的数据
2. 如何高效的计算数据
数据格式层：在计算层与存储层之间，定义了存储层文件内部的组织格式，计算引擎通过格式层的支持来读写文件。
数据形态
- 存储层：File ，Blocks
- 格式层：File内部的数据布局( Layout + Schema )
- 计算层：Rows + Columns
数据查询分析场景
- OLTP：在线业务系统中，具有事务性，低延时，高并发等特点。
  - 数据模型特征：Schema相对简单，数据维度不多，数据规模较小，主要采用行式存储。
- OLAP：大数据分析系统中，数据量大对吞吐性要求高，相对来说对事务延时并发等要求较小。
  - 数据模型特征：Schema复杂，数据维度很多，数据规模大，主要采用列式存储。
列存的应用场景
- 大数据分析系统：SQL-on-Hadoop，数据湖分析
- 数据仓库：ClickHouse , Greenplum，阿里云MaxCompute

大数据分析领域使用最广的列存格式之一，出自Hive
数据模型
- ORC会给包括根节点在内的中间节点都创建一个Column
- 嵌套类型或者集合类型支持和Parquet差别较大
数据布局类似Parquet
- Rooter + Stripe + Column + Page (Row Group)结构
- Encoding / Compression / Index支持上和Parquet几乎一致