这是我参与「第四届青训营」笔记创作活动的第6天

1. 概述

2. Presto基础原理和概念

3. Presto重要机制

4. 性能优化实战

1. 概述

OLAP(Online Analytical Processing)对业务多维分析，提供复杂计算，趋势分析和复杂数据建模的能力，是许多商务智能（BI）应用程序背后技术。

OLAP引擎常通过SQL形式，为数据分析、数据开发人员提供统一的逻辑描述语言，实际的物理执行有具体的引擎进行转换和优化。

OLAP相对mapreduce门槛低一些。

OLAP核心概念:维度、度量。

常见的OLAP引擎:

-预计算引擎：Kylin，Druid
-批式处理引擎：Hive，Spark
-流式处理引擎：Flink
-交互式处理引擎：Presto，Clickhouse，Doris

Presto最初构建于Hadoop/HDFS系统之上的PB级交互式分析引擎。

-多租户任务的管理与调度
-多数据源联邦查询
-支持内存化计算
-Pipeline式数据处理

Presto二次开发

2. Presto基础原理和概念

presto大致架构.png

2.1基础概念介绍

2.1.1服务相关概念

Coordinator

-解析SQL语句
-生成执行计划
-分发执行任务给Worker节点

Worker

-执行Task处理数据
-与其他Worker交互传输数据

2.1.2数据源相关

Connector

一个connector代表一种数据源。可以认为Connector是由Presto提供的适配多数据源的统一接口

Catalog

管理元信息与实际数据的映射关系。

2.1.3 Query相关

Query（查询）

基于SQL parser后获得的执行计划。

Stage

根据是否需要shuffle将Query拆分成不同的subplan，每个subplan便是一个stage

Fragment

基本等价于Stage，属于在不同阶段的称呼。

Task

单个Worker节点上的最小资源管理单元：在一个节点上，一个Stage只有一个Task，一个Query可能有多个Task。

Pipeline

Stage按照LocalExchange切分为若干Operator集合，每个Operator集合定义一个Pipeline。【即satge通过shuffle分成若干pipeline】

Driver

Pipeline的可执行实体，Pipeline和Driver的关系可类比程序和进程，是最小的执行单元，通过火山迭代模型执行每一个operator。【pipeline分成若干driver】

Split

输入数据描述（数据实体是page），数量上和Driver一一对应，不仅代表实际数据源split，也代表了不同stage之间窜数的数据

Operator

最小的物理算子

Query→多个stage（一个stage只有一个task）

Stage（task）→若干pipeline（Operator集合）

Pipeline与driver，类似进程与线程（一个driver执行一个operator，split与driver也一一对应）

提高并行度

并行度计算：不同pipeline下split的数目之和。

2.1.4 数据传输相关

Exchage：表示不同stage之间的数据传输，大多数以一下等价于shuffle

Localexchange：stage内的rehash操作，常用于提高并行处理数据的能力（Task在Presto中只是最小的容器，而不是最小的执行单元）。Localexchange默认数值是16。

2.2 核心组件架构介绍

presto核心组件架构介绍.png

2.2.1 服务发现

Discovery Service:

1. Worker配置文件配置Discovery Service地址
2. Worker节点启动后会向Discovery Service注册
3. Coordinator从Discovery Service获取Worker的地址

2.2.2 通信机制

1.Presto Client/JDBC Client与Server间通信

-http

2.Coordinator与Worker间的通信

-Thrift/Http

3.Worker与Worker间的通信

-Thrift/Http

Thrift具有更好的数据编码能力，Http还不支持头部信息的压缩，Thrift有更好的数据压缩。

节点状态：*ACTIVE *INACTIVE *SHUTDOWN

(Shutdown的状态作用是什么)

建立连接的时候需要多次握手，shutdown和此概念类似。

1.Worker进入shutdown状态；

2.coordinate不再worker调度task，同时设置超时时间，在此超时时间内worker跑的其他task尽可能继续跑完。

3.到达超时时间后强制关闭worker节点。

3. Presto重要机制

3.1 多租户资源管理

Resource Group

-类似Yarn多级队列的资源管理方式（下面有subgroup）

-基于CPU/MEMORY/SQL执行数进行资源使用量限制

优点：轻量的Query级别的多级队列资源管理模式

缺点：存在一定滞后性，只会对Group中正在运行的SQL进行判断

3.2 多租户下的任务调度

1.Antlr4解析生成AST

2.转换成Logical Plan

3.按照是否存在Shuffle（exchange），切分成不同的Stage（Fragment）

多租户任务调度.png

3.2.1 Stage调度

-AllAtOnceExecution同时调度（实际上一般会选这个）

延迟低，会存在任务空跑

-PhasedExecutionPolicy分阶段调度（不代表每个stage都分开调度）

有一定延迟、节省部分资源

典型应用场景——join查询

3.2.2 Task调度

Task数量的确定：

-Source：根据数据meta决定分配多少个节点

-Fixed:hash partition count确定，如集群节点数量

-sink：汇聚结果，一台机器

-scaled：无分区限制，可拓展，如write数据

-coordinator_Only：只需要coordinator参与

task数量.png

选择什么样的节点

-HARD_AFFINITY：计算、存储local模式，保障计算与存储在同一个节点，减少数据传输

-SOFT_AFFINITY：基于某些特定算法，如一致性HASH函数，常用于缓存场景，保证相似的Task调度到同一个Worker

-NO_PREFERENCE:随机选取，常用于普通的纯计算Task

3.2.3 Split调度

Query A大 SQL先提交

Query B大 SQL后提交

是否应该等Query A执行后执行Query B？

-FIFO:顺序执行，绝对公平

-优先级调度：快速响应

Presto的split调度坚固了上述两种思想。

1. 按照固定时间片，轮训split处理数据，处理1s，再重新选择一个split执行

2. Split间存在优先级。五个优先级等级理论上分配的时间占比为16:8:4:2:1

保证小Query快速执行；保障大Query存在固定比例的时间片，不会完全饿死。

3.3 允许纯内存计算

3.3.1 pipeline化的数据处理

（按localexchange拆分）

-Pipeline的引入更好的实现算子间的并行

-语义上保证了每个Task内的数据流式处理

3.3.2 Back Pressure Mechanism

控制split生成流程

控制operator的执行

-targetConcurrency auto-scale-out

定时检查，如果OutputBuffers使用率低于0.5（下游消费较快，需要提高生产速度），并发度+1.

-”sink.max-buffer-size”写入buffer的大小控制

-”exchange.max-buffer-size”读取buffer的大小控制

达到最大值时Operator进入阻塞状态。

3.4 多数据源联邦查询

将各个数据进行统一的抽象，最后由presto server进行统一的物理执行。

局限性：

1.元数据管理和映射（每个connector管理一套元数据服务）

2.谓词下推

3.数据源分片

Shuffle本质是通过hash区分不同类的数据

4.性能优化实战

4.1常用性能分析工具

-Grafana：埋点、系统指标如CPU、内存、网络等的可视化界面，时序化的数据展示。

-java相关指令

-JStack查看java线程栈信息

-JMX是一个应用程序植入管理功能的框架

-JMAP&GC日志等等内存分析工具

-线上问题排查工具：

-Arthas(Watch,Trace)

-Flame Figure/火焰图

    用于分析热点代码占用大量CPU，从而导致服务性能下降的情况。

-Presto UI

Presto架构原理与优化｜ 青训营笔记

1. 概述

2. Presto基础原理和概念

2.1基础概念介绍

2.1.1服务相关概念

2.1.2数据源相关

2.1.3 Query相关

2.1.4 数据传输相关

2.2 核心组件架构介绍

2.2.1 服务发现

2.2.2 通信机制

3. Presto重要机制

3.1 多租户资源管理

3.2 多租户下的任务调度

3.2.1 Stage调度

3.2.2 Task调度

3.2.3 Split调度

3.3 允许纯内存计算

3.3.1 pipeline化的数据处理

3.3.2 Back Pressure Mechanism

3.4 多数据源联邦查询

4.性能优化实战

4.1常用性能分析工具

Presto架构原理与优化｜青训营笔记