这是我参与「第四届青训营」笔记创作活动的第6天

1. 什么是Presto

Presto最初是由facebook研发的构建于Hadoop/HDFS系统之上的PB级交互式分析引擎，其具有如下的特点：

多租户任务的管理与调度
多数据源联邦查询
支持内存化计算
pipeline式数据处理

2. Presto基础原理与概念

Coordinator（负责调度）：
- 解析SQL语句
- ⽣成执⾏计划
- 分发执⾏任务给Worker节点执⾏
Worker
- 执行Task处理数据
- 与其他Worker交互传输数据

2.1 数据源相关

Connector

Presto通过Connector来支持多数据源，一个Connector代表一种数据源，如Hive Connector代表了对Hive数据源的支持。可以认为Connector是由Presto提供的适配多数据源的统一接口

Catalog

针对不同的数据源，Connector和Catalog是一一对应的关系，Catalog包含了schema和data source的映射关系。

2.2 Query相关

Query

基于SQL parser后获得的执行计划

Stage

根据是否需要shuffle将Query拆分成不同的subplan，每一个subplan便是一个stage

Fragment

基本等价于Stage，属于在不同阶段的称呼，在本门课程可以认为两者等价

Task

单个 Worker 节点上的最小资源管理单元: 在一个节点上, 一个 Stage 只有一个 Task, 一个 Query 可能有多个Task

Pipeline

Stage 按照 LocalExchange 切分为若干 Operator 集合, 每个 Operator 集合定义一个 Pipeline

Driver

Pipeline 的可执行实体 , Pipeline 和 Driver 的关系可类比程序和进程，是最小的执行单元，通过火山迭代模型执行每一个Operator

Split

输入数据描述(数据实体是 Page), 数量上和 Driver 一一对应，不仅代表实际数据源split，也代表了不同stage间传输的数据

Operator

最小的物理算子

2.3 数据传输部分

Exchange

表示不同 Stage 间的数据传输，大多数意义下等价于 Shuffle

LocalExchange

Stage内的 rehash 操作，常用于提高并行处理数据的能力（Task在presto中只是最小的容器，而不是最小的执行单元）

2.4 核心组件架构介绍

Presto架构图

2.4.1 服务发现

Discovery Service
- Worker配置文件配置discovery Service 地址
- Worker节点启动后会向Discovery Service 注册
- Coordiantor从Discovery Service 获取Worker的地址

2.4.2 通信机制

Presto Client / JDBC Client与Server 间通信
- http
Coordinator 与 Worker间的通信
- Thrift / Http
Worker 与 Worker间的通信
- Thrift / Http

Http1.1 VS Thrift
- Thrift具有更好的数据编码能力，Http1.1还支持头部信息的压缩，Thrift具有更好的数据压缩率

3. Presto重要机制

多租户资源管理
多租户任务调度
内存计算
多数据源联邦查询

Presto架构原理与优化介绍 | 青训营笔记