Presto 架构原理与优化介绍 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的的第10天 1. 概述大数据

这是我参与「第四届青训营」笔记创作活动的的第10天

1. 概述

OLAP：OnLine Analytical Processing

Connector：一个Connector代表一个数据源

Catalog：管理元信息与实际数据的映射关系

Query：基于SQL parser 后获得的执行计划

Stage：Query->subplane->stage

Fragment：基本等价于Stage

Task:单个worker节点上的最小资源管理单位

Pipeline：LocalExchange->Operator->Pipeline

Driver：Pipeline的可执行实体

Split：输入数据描述

Operator：最小的物理算子

Exchange & LocalExchange（默认值为16）

真实并行度：在不同Pipeline下的Split（Driver）的数目之和

Discovery Service

通信机制：Presto Client/JDBC Client与server间通信；Coordinator与Worker；Worker与Worker

节点状态：ACTIVE; INACTIVE; SHUTDOWN

resource group：类似于Yarn 多级队列的资源管理方式

Stage：AllAtOnceExecutionPolicy（同时调度；延迟低，会存在任务空跑）、PhasedExecutionPolicy（分阶段调度，不代表每个Stage都分开调度；有一定延迟，节省部分资源）
Task:数量如何确定（Source，Fixed，Sink，Scaled，Coordinator）；选择什么样的节点（HARD-AFFINITY, SOFT-AFFINITY, NO-PREFERENCE）
Split: FIFO先进先出；优先级调度（快速响应）；MultiplelevelSplitQueue

将各个数据源进行统一的抽象，最后由presto server 进行统一的物理执行

局限性：元数据管理与映射；谓词下推；数据源分片