青训营 Presto 架构原理与优化介绍

概述

2022の夏天，半壶水响叮当的我决定充实一下自我

一、内容介绍

青训营

总述

介绍大数据与 OLAP 的演进之路，并简单介绍 Presto 的设计理念
介绍 Presto 的基础概念与原理，加深对Presto基础概念的理解
对 Presto 的特色和重要机制进行讲解和剖析
基于实际工作中遇到的case，介绍 Presto 常用的优化工具，以及 Presto 在字节内部的相关优化

大数据与 OLAP 基础概念介绍

en.wikipedia.org/wiki/Big_da…

en.wikipedia.org/wiki/Online…

Presto 基础概念-服务

Coordinator（负责调度）：
- 解析SQL语句
- ⽣成执⾏计划
- 分发执⾏任务给Worker节点执⾏
Worker

在一个presto集群中，存在一个coordinator节点和多个worker节点，coordinator节点是管理节点，而worker节点就是工作节点，在每个worker节点上都会存在一个worker服务进程，该服务进程主要进行数据的处理以及task的执行，worker服务进程每隔一定的时间都会向coordinator上的服务发送心跳，接受调度。当客户端提交一个查询的时候，coordinator则会从当前存活的worker列表中选择出适合的worker节点去运行task，而worker在执行每个task的时候又会进一步对当前task读入的每个split进行一系列的操作和处理

Discovery Service（将coordinator和woker结合到一起的服务）:
- Worker节点启动后向Discovery Server服务注册
- Coordinator从Discovery Server获得Worker节点

所有的worker都把自己注册到Discovery Server上，Discovery Server是一个发现服务的service，Discovery Server发现服务之后，coordinator便知道在集群中有多少个worker能够工作，分配工作到worker时便有了根据

Presto基础概念-数据源

Connector

Presto通过Connector来支持多数据源，一个Connector代表一种数据源，如Hive Connector代表了对Hive数据源的支持。可以认为Connector是由Presto提供的适配多数据源的统一接口

Catalog

针对不同的数据源，Connector和Catalog是一一对应的关系，Catalog包含了schema和data source的映射关系。

Presto基础概念-Query部分

Query

基于SQL parser后获得的执行计划

Stage

根据是否需要shuffle将Query拆分成不同的subplan，每一个subplan便是一个stage

Fragment

基本等价于Stage，属于在不同阶段的称呼，在本门课程可以认为两者等价

Task

单个 Worker 节点上的最小资源管理单元: 在一个节点上, 一个 Stage 只有一个 Task, 一个 Query 可能有多个Task

Pipeline

Stage 按照 LocalExchange 切分为若干 Operator 集合, 每个 Operator 集合定义一个 Pipeline

Driver

Pipeline 的可执行实体 , Pipeline 和 Driver 的关系可类比程序和进程，是最小的执行单元，通过火山迭代模型执行每一个Operator

Split

输入数据描述(数据实体是 Page), 数量上和 Driver 一一对应，不仅代表实际数据源split，也代表了不同stage间传输的数据

Operator

最小的物理算子

Presto基础概念-数据传输部分

Exchange

表示不同 Stage 间的数据传输，大多数意义下等价于 Shuffle

LocalExchange

Stage内的 rehash 操作，常用于提高并行处理数据的能力（Task在presto中只是最小的容器，而不是最小的执行单元）

二、Presto概述

大数据与OLAP系统的演进
Presto设计思想

2.1 大数据与OLAP系统的演进

大数据：（马丁·希尔伯特）在2000年后，因为信息化的快速发展。信息交换、信息存储、信息处理三个方面能力的大幅增长而产生的数据。

Hadoop:基于廉价机器的存算分离的大规模分布式处理系统
1.谷歌在2003、2004年发布Google File System论文、MapReduce论文
2.2008年，Hadoop成为apache]顶级项目
map:数据转化
reduce：聚合，清洗

OLAP(OnLine Analytical Processing/联机分析处理)对业务数据执行多维分析，并提供复杂计算，趋势分析和复杂数据建模的能力。是许多商务智能(BI)应用程序背后的技术。
OLAP VS MapReduce
- 1.MaoRo
- 2.与Mapreduce Job相比，OLAP引擎常通过SQL的形式，为数据分析、数据开发人员提供统一的逻辑描述语言，实际的物理执行由具体的引擎进行转换和优化。

OLAP核心概念:

维度

度量

常见的OLAP引擎:

预计算引擎:Kylin, Druid

批式处理引擎:Hive, Spark

流式处理引擎:Flink

交互式处理引擎:Presto, Clickhouse, Doris

2.2 Presto设计思想

Presto最初是由Facebook 研发的构建于Hadoop/HDFS 系统之上的PB级交互式分析引擎，其具有如下的特点:

多租户任务的管理与调度
多数据源联邦查询
支持内存化计算
Pipeline式数据处理

下：数据源；中：Presto；上：数据呈现客户

有很多公司也基于Presto进行了二次开发:

Prestodb: github.com/prestodb/pr…

Trino: https:/lgithub.com/trinodbltrino

Openlookeng: https:/lgithub.com/openlookeng/hetu-core

三、Presto基础原理和概念

基础概念的介绍
核心组件架构介绍

3.1 基础概念的介绍

3.1.1 基础概念介绍-服务相关

Coordinator/协调员
- 角解析SQL语句
- 生成执行计划
- 分发执行任务给Worker节点
Worker/工人
- 执行Task处理数据
- 与其他Worker交互传输数据
黄色：数据源
绿色：Presto 服务
蓝色：用户端

3.1.2 基础概念介绍-数据源相关

Connector/连接器：
一个Connector代表一种数据源。可以认为Connector是由Presto提供的适配多数据源的统一接口
Catalog/目录：
管理元信息与实际数据的映射关系

3.1.3 基础概念介绍-Query/查询相关

Query/查询基于SQL parser后获得的执行计划
Stage/舞台根据是否需要shuffle将Query拆分成不同的subplan，每一个subplan便是一个stage
Fragment/碎片基本等价于Stage，属于在不同阶段的称呼，在本门课程可以认为两者等价
Task/任务单个 Worker 节点上的最小资源管理单元: 在一个节点上, 一个 Stage 只有一个 Task, 一个 Query 可能有多个Task
Pipeline/流水线 Stage 按照 LocalExchange 切分为若干 Operator 集合, 每个 Operator 集合定义一个 Pipeline
- Driver/驱动 Pipeline 的可执行实体 , Pipeline 和 Driver 的关系可类比程序和进程，是最小的执行单元，通过火山迭代模型执行每一个Operator
Split/分离输入数据描述(数据实体是 Page), 数量上和 Driver 一一对应，不仅代表实际数据源split，也代表了不同stage间传输的数据
Operator/操作员最小的物理/执行算子

3.1.4 Presto基础概念-数据传输部分

Exchange 表示不同 Stage 间的数据传输，大多数意义下等价于 Shuffle（map与reduce间的数据移动）
LocalExchange Stage内的 rehash 操作，常用于提高并行处理数据的能力（Task在presto中只是最小的容器，而不是最小的执行单元）
LocalExchange的默认数值是16

3.1.5 多租户下的任务调度-数据传输相关

Q:如何衡量某个任务某个Stage的真实并行度?
A:在不同Pipeline 下 Split (Driver)的数目之和。
image (70).png

image (71).png

3.2 核心组件架构介绍

3.2.1 Presto 架构图

image (72).png

3.2.2 核心组件架构介绍-服务发现

Discovery Service/发现处：

Worker配置文件配置 Discovery Service地址
Worker节点启动后会向Discovery Service注册
Coordiantor 从Discovery Service获取Worker的地址

3.2.3 核心组件架构介绍-通信机制

通信机制

Presto Client / JDBC Client 与Server间通信

Http

Coordinator 与Worker 间的通信

Thrift / Http

Worker 与 Worker |间的通信

Thrift / Http

Http 1.1 Vs Thrift

Thrift具有更好的数据编码能力，Http 1.1还不支持头部信息的压缩，Thrift具有更好的数据压缩率

节点状态

ACTIVE/主动
INACTIVE/不活动
SHUTDOWN/停工

3.2.3核心组件架构介绍

Graceful Shutdown(优雅的扩缩容)∶

image (73).png

3.3 Presto基础原理与概念-小结

从服务、数据源、Query、数据传输四个角度，介绍了Presto相关的基础概念

服务、数据源、Query、数据传输包含哪些基本概念?
如何衡量一个任务的并行度（Task并不是最小的执行单元)

通过服务发现、通信机制、节点状态三方面介绍了Coordinator 与 Worker是如何协调和工作的

四、Presto重要机制

多租户资源管理
多租户下的任务调度
内存计算
多数据源联邦查询

4.1. 多租户资源管理

4.1.1 多租户资源管理- Case介绍

假设某个用户提交一个SQL：

提交方式:Presto-cli
提交用户:zhangyanbing
提交SQL:

select 
    customer type, 
    avg (cost)
as a from test table 
group by customer type 
order by a limit 10;

4.1.2 多租户资源管理- Resource Group

Resource Group/资源组

类似Yarn多级队列的资源管理方式
基于CPU、MEMORY、SQL执行数进行资源使用量限制

image (74).png

image (75).png

优点 : 轻量的Query级别的多级队列资源管理模式
缺点: 存在一定滞后性，只会对Group中正在运行的 SQL进行判断

4.2. 多租户下的任务调度

Stage/阶段调度
Task/任务调度
Split/分裂调度

4.2.1 多租户下的任务调度-物理计划生成

select customer type, 
        avg (cost) as a
from test_ table 
    group by customer type 
    order by a
        limit 10;

Antlr4解析生成AST
转换成Logical Plan/逻辑计划
按照是否存在Shuffle(Exchange)，切分成不同的Stage (Fragment)

image (76).png

4.2.2 多租户下的任务调度-Stage/阶段调度

Stage的调度策略:

默认：AllAtOnceExecutionPolicy/流式，交互式，延迟低，会存在任务空跑/同时调度
PhasedExecutionPolicy/阶段执行政策有一定延迟、节省部分资源/分阶段调度

PhasedExecutionPolicy/执行策略 :
- 不代表每个stage都分开调度
典型的应用场景(join查询)：
- Build端:右表构建用户join的hashtable
- Probe端:对用户左表数据进行探查，需要等待build端完成
- Build端构建hashtable端时，probe端是一直在空跑的

4.2.3 多租户下的任务调度-Task/任务调度

Task调度

Task的数量如何确定
- Source:根据数据meta决定分配多少个节点
- Fixed: hash partition count确定，如集群节点数量
- Sink/汇:汇聚结果，一台机器
- Scaled/缩放:无分区限制，可拓展，如write数据
- Coordinator_Only:只需要coordinator参与
选择什么样的节点(调度方式有那些)
- HARD_AFFINITY/硬亲和力:计算、存储Local模式，保障计算与存储在同一个节点，减少数据传输
- SOFT_AFFINITY/软关联:基于某些特定算法，如一致性HASH函数，常用于缓存场景，保证相似的Task调度到同一个Worker
- NO_PREFERENCE/NO_首选项:随机选取，常用于普通的纯计算Task