这是我参与「第四届青训营」笔记创作活动的第 9 天!

概述

Presto 基础原理

Query
- 基于 Query parser 后获得的执行计划
Stage
- 根据是否需要 Shuffle 将 Query 拆分成不同的 subplan，每一个 subplan 便是一个 stage
Fragment
- 基本等价于 Stage，属于在不同阶段的称呼，在此认为两者等价
Task
- 单个 Worker 节点上的最小资源管理单元：在一个节点上，一个 Satge 只有一个 Task，一个 Query 可能有多个 Task
Pipeline
- Stage 按照 localExchange 切分为若干 Operator 集合，每个 Operator 集合定义一个 Pipeline
Driver
- Pipeline 的可执行实体，Pipeline 和 Driver 的关系可类比程序和进程，是最小的执行单元，通过火山迭代模型执行每一个 Operator
Split
- 输入数据描述（数据实体是 Page），数量上和 Driver 一一对实际数据源应，不仅代表数据源 split，也代表了不同 Stage 间传输的数据
Operator
- 最小的物理算子

Exchange：
- 表示不同 Stage 间的数据传输，大多数意义下等价于 Shuffle
LocalExchange：（默认数值是 16）
- Stage 内的 rehash 操作，常用于i提高并行处理数据的能力（Task 在 Presto 中只是最小的容器，而不是最小的执行单元）
多租户下的任务调度
- 衡量某个任务某个 Stage 的真实并行度
  - 在不同的 Pipeline 下 Split（Driver）的数目之和