这是我参与「第五届青训营」伴学笔记创作活动的第 23 天

这里主要介绍Presto。Presto 作为大数据领域常见的计算引擎，支持多数据源联邦查询、多租户任务的管理与调度，并且具有内存化计算、pipeline 化处理数据等特点，使其在交互式 SQL 查询领域中被广泛使用。本节课主要为大家介绍大数据与 OLAP 的演进之路，帮助大家后续更好地领会 Presto 的基本原理。

概述

什么是大数据?
大数据=大规模的数据量?
关于大数据这里我们参考马J希尔伯特的总结:大数据其实是在2000年后，因为信息化的快速发展。信息交换、信息存储、信息处理三个方面能力的大幅增长而产生的数据。

reference: www.zhihu.com/question/46…

大数据与OLAP演进

Hadoop: 廉价机器 & 存算分离的大规模分布式处理系统

三架马车
Hadoop称为apache顶级项目

OLAP(OnLine Analytical Processing)：对业务数据执行多维分析，并提供复杂计算，趋势分析和复杂数据建模的能力。是许多商务智能(BI)应用程序背后的技术。
OLAP VS MapReduce：
1. MapReduce代表了抽象的物理执行模型，使用门槛较高
2. 与Mapreduce Job相比，OLAP引擎常通过SQL的形式，为数据分析、数据开发人员提供统-的逻辑描述语言，实际的物理执行由具体的引擎进行转换和优化。

OLAP核心概念：
- 维度
- 度量

reference: cloud.tencent.com/developer/a…

常见的OL AP引擎:
- 预计算引擎: Kylin, Druid（空间换时间）
- 批式处理引擎: Hive, Spark
- 流式处理引擎: Flink
- 交互式处理引擎: Presto, Clickhouse, Doris

Presto设计思想

Presto最初是由Facebook研发的构建于Hadoop/HDFS系统之上的PB级交互式分析引擎，其具有如下的特点:
- 多租户任务的管理与调度
- 多数据源联邦查询
- 支持内存化计算
- Pipeline 式数据处理
有很多公司也基于Presto进行了二次开发:
- Prestodb: github.com/prestodb/pr…
- Trino: github.com/trinodb/tri…
- Openlookeng: github.com/openlookeng…

Presto基础原理和概念

基础概念的介绍

服务相关

Coordinator
- 解析SQL语句
- 生成执行计划
- 分发执行任务给Worker节点
Worker
- 执行Task处理数据
- 与其他Worker交互传输数据

数据源相关

Connector：
- 一个Connector代表一 -种数据源。可以认为Connector是由Presto提供的适配多数据源的统一接口。
Catalog：
- 管理元信息与实际数据的映射关系。

Query相关

Query：基于SQL parser后获得的执行计划
Stage：根据是否需要shuffle将Query拆分成不同的subplan，每一subplan便是一个stage（数据必须要进行节点传输交互，就是一个shuffle，shuffle就是数据混写，就可以被划分为不同的stage）
Fragment：基本等价于Stage，属于在不同阶段的称呼，在本门课程可以认为两者等价
Task：单个Worker节点上的最小资源管理单元：在一个节点上，一个Stage只有一个Task, 一个Query可能有多个Task。
Pipeline：Stage按照LocalExchange切分为若干Operator集合，每个 Operator集合定义一个Pipeline.
Driver：Pipeline的可执行实体，Pipeline 和Driver的关系可类比程序和进程，是最小的执行单元，通过火山迭代模型执行每一个Operator.
Split：输入数据描述(数据实体是Page),数量上和Driver一对应，不仅代表实际数据源split，也代表了不同stage间传输的数据。
Operator：最小的物理算子。

数据传输相关

Exchange & LocalExchange :
Exchange: 表示不同Stage间的数据传输，大多数意义下等价于Shuffle
LocalExchange:：
- Stage 内的rehash操作，常用于提高并行处理数据的能力(Task在 Presto中只是最小的容器，而不是最小的执行单元)

LocalExchange的默认数值是16。

多租户下的数据调度-传输相关

Q: 如何衡量某个任务某个Stage的真实并行度? A: 在不同Pipeline下Split (Driver)的数目之和。

核心组件架构介绍

架构图：

reference: prestodb.io/overview.ht…

服务发现

Discovery Service:

Worker配置文件配置Discovery Service地址
Worker 节点启动后，会向 Discovery Service 注册
Coordiantor 从 Discovery Service 获取 Worker 地址

通信机制

通信机制

Presto Client / JDBC Client与Server 间通信 Http

Coordinator与Worker 间的通信 Thrift / Http

Worker与Worker间的通信 Thrift / Http
Http 1.1 VS Thrift Thrift具有更好的数据编码能力，Http 1.1还不支持头部信息的压缩，Thrift 具有更好的数据压缩率

节点状态：
- Active
- Inactive
- Shutdown

shutdown的作用：

优雅扩缩容，shutdown表示想要关闭的状态，Coordinator发现为shutdown之后，就可能不会向它调度流量了，它还要处理自己手上现有的任务的昂！！！相当于一个中间态。

reference : trino.io/docs/curren…

小结

从服务、数据源、Query. 数据传输四个角度，介绍了Presto 相关的基础概念
- 服务、数据源、Query、数据传输包含哪些基本概念?
- 如何衡量一个任务的并行度( Task并不是最小的执行单元)
通过服务发现、通信机制、节点状态三方面介绍了Coordinator 与 Worker是如何协调和工作的。

Presto重要机制

多租户资源管理

Case介绍

假设某个用户提交一个sql :

提交方式: Presto-cli
提交用户: zhangyanbing
提交SQL : seLect customer. type, avg (cost) as a from test_ table group by customer_type order by a timit 10;

Resource Group

Resource Group
- 类似Yarn多级队列的资源管理方式
- 基于CPU、MEMORY、SQL 执行数进行资源使用量限制

优点:：轻量的Query级别的多级队列资源管理模式
缺点：存在一定滞后性，只会对Group中正在运行的SQL进行判断

多租户下的任务调度

物理计划生成

任务调度：
- Stage调度
- Task调度
- Split调度

Stage调度

AllAtOnceExecutionPolicy: 同时调度
PhasedExecutionPolicy: 分阶段调度

PhasedExecutionPolicy：不代表每个stage都分开调度
典型的应用场景( join查询)
- Build 端:右表构建用户join的hashtable
- Probe 端:对用户左表数据进行探查，需要等待build端完成
- Build 端构建hashtable端时，probe端是一直在空跑的

Stage的调度策略:
- AllAtOnceExecutionPolicy：延迟点,会存在任务空跑
- PhasedExecutionPolicy：有一定延迟、节省部分资源

Task调度

数量如何确定
选择什么样的节点（调度方式有哪些）

Task的数量如何确定:
- Source :根据数据meta决定分配多少个节点
- Fixed: hash partition count确定，如集群节点数量
- Sink: 汇聚结果，一台机器
- Scaled：无分区限制，可拓展，如write数据
- Coordinator_Only: 只需要coordinator参与

选择什么样的节点：
- HARD_ AFFINITY :计算、存储Local模式，保障计算与存储在同一个节点，减少数据传输
- SOFT AFFINITY：基于某些特定算法，如一致性HASH函数，常用于缓存场景，保证相似的Task调度到同一个Worker
- NO_PREFERENCE：随机选取，常用于普通的纯计算Task

Split调度

Query A大SQL先提交 Query B小SQL后提交是否应该等Query A执行完了再执行Query B ?

FIFO:顺序执行，绝对公平
优先级调度:快速响应

按照固定的时间片，轮训Split处理数据，处理1s, 再重新选择一个Split执行
Split 间存在优先级

MultilevelSplitQueue
- 5个优先级level 理论.上分配的时间占比为 16:8:4:2:1 (2- based)
优势:
1. 优先保证小Query快速执行
2. 保障大Query存在固定比例的时间片，不会被完全饿死

内存计算

Pipeline 化的数据处理
Back Pressure Mechanism

Pipeline化数据处理

Pipeline (按LocalExchange拆分) :
- Pipeline 的引入更好的实现算子间的并行
- 语义上保证了每个Task内的数据流式处理

反向机制

Back Pressure Mechanism
- 控制split生成流程
- 控制operator的执行

targetConcurrency auto-scale-out

定时检查，如果OutputBuffers使用率低于0.5 (下游消费较快，需要提高生产速度)，并发度+1

"sink.max -buffer- size"写入buffer的大小控制 "exchange.max- buffer-size"读取buffer的大小控制

达到最大值时Operator会进入阻塞状态

多数据源联邦查询

将各个数据源进行统一的抽象，最后由presto server进行统一的物理执行。

局限性:
1. 元数据管理与映射 ( 每个connector管理一套元数据服务)
2. 谓词下推
3. 数据源分片

小结

展开介绍了如下的Presto重要机制:

多租户资源管理
多租户任务调度
内存计算
多数据源联邦查询

性能优化实战

常见性能分析工具

Grafana

Grafana:埋点、系统指标如CPU、内存、网络等的可视化界面，时序化的数据展示

Java相关指令

Presto运行在JVM之上，本质就是个Java程序，可以使用Java指令进行调优昂！！！

Jstack查看Java线程栈信息，排查是否有死锁,或者异常线程存在

JMX(Java Management Extensions)是一个为应用程序植入管理功能的框架，常用来做一些监控指标的统计收集

JMAP & GC日志等等内存分析工具

线上排查工具

不重启服务的情况下，对于方法进行监控

Arthas

Watch

Trace

Flame Figure

火焰图

用于分析热点代码占用大量CPU，从而导致服务性能下降的情况。如下图,自底向上为调用关系。上层宽度越宽表示当前函数 CPU耗时越久,我们关注最宽的函数调用。

Presto UI

Query级别统计信息
Logical plan
Stage、Task 信息
Worker状态信息

具体案例分析

Case 1

github.com/prestodb/pr…

Data: tpcds 1T Table: store_ returns (about 2000 partitions) Sql: select count(*) from store_ returnsQuery execution time: about 3-4s

为什么不符合预期? count(*)只需要读取parquet的footer信息，为什么需要3 -4s才需要完成一条sql

找到对应的方法：

Case 2

SQL执行缓慢，发现某几个节点CPU负载特别高
只能看到某些节点cpu负载很高,但是不知道导致的原因是什么,或者如何规避

怀疑正则表达式出现了问题昂！！！

正则表达式有时是十分耗时的，是属于很高的时间延迟级别的昂。正则表达式是业务写入的，数据是用户这边输入的，平台是我们提供的。三方不协调，很正常昂！！！
解决思路:
1. 能否实现一个可中断的正则表达式?
2. 除了正则表达式外遇到其他类似问题怎么处理?

字节内部优化实战

Multi Coordinator

Coordinator单节点稳定性差
单节点会成为集群性能瓶颈

History Server

原始的Presto UI存储在内存中，无法长时间报错
History Server提供与Presto UI相同体验&持久化的数据存储

Support Remote UDF

统一的UDF抽象，适配多引擎
多租户的内核与网络隔离

RaptorX的多级缓存

Metastore cache by version

List file cache
Fragament cache
Alluxio cache

Fragment Cache

小结

介绍了常见的性能优化工具
- Grafana
- Java指令
- Arthas
- Flame Figure
具体案例分析
字节内部优化实战分享

References

大数据：www.zhihu.com/question/46…

OLAP: cloud.tencent.com/developer/a…
核心组件介绍：prestodb.io/overview.ht…

Presto架构原理与优化介绍 ｜ 青训营笔记

概述

大数据与OLAP演进

Presto设计思想

Presto基础原理和概念

基础概念的介绍

服务相关

数据源相关

Query相关

数据传输相关

多租户下的数据调度-传输相关

核心组件架构介绍

服务发现

通信机制

小结

Presto重要机制

多租户资源管理

Case介绍

Resource Group

多租户下的任务调度

物理计划生成

Stage调度

Task调度

Split调度

内存计算

Pipeline化数据处理

反向机制

多数据源联邦查询

小结

性能优化实战

常见性能分析工具

Grafana

Java相关指令

线上排查工具

Arthas

Flame Figure

Presto UI

具体案例分析

Case 1

Case 2

字节内部优化实战

Multi Coordinator

History Server

Support Remote UDF

RaptorX的多级缓存

小结

References

Presto架构原理与优化介绍｜青训营笔记