Presto 架构原理与优化介绍 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第7天，本篇笔记主要是关于第七次大数据课程《Presto 架构原理与优化介绍》的课堂笔记

OLAP(OnLine Analytical Processing)对业务数据执行多维分析，并提供复杂计算，趋势分析和复杂数据建模的能力。是许多商务智能( BI )应用程序背后的技术。

Presto：最初是由facebook研发的构建于Hadoop/HDFS系统之上的PB级交互式分析引擎，其具有如下的特点：

多租户任务的管理与调度
多数据源联邦查询
支持内存化计算
pipeline式数据处理

Presto基础原理与概念

基础概念介绍

Coordinator（负责调度）：
- 解析SQL语句
- ⽣成执⾏计划
- 分发执⾏任务给Worker节点执⾏
Worker 在一个presto集群中，存在一个coordinator节点和多个worker节点，coordinator节点是管理节点，而worker节点就是工作节点，在每个worker节点上都会存在一个worker服务进程，该服务进程主要进行数据的处理以及task的执行，worker服务进程每隔一定的时间都会向coordinator上的服务发送心跳，接受调度。当客户端提交一个查询的时候，coordinator则会从当前存活的worker列表中选择出适合的worker节点去运行task，而worker在执行每个task的时候又会进一步对当前task读入的每个split进行一系列的操作和处理
Discovery Service（将coordinator和woker结合到一起的服务）:
- Worker配置文件配置Discovery Service地址
- Worker节点启动后向Discovery Server服务注册
- Coordinator从Discovery Server获得Worker节点的地址所有的worker都把自己注册到Discovery Server上，Discovery Server是一个发现服务的service，Discovery Server发现服务之后，coordinator便知道在集群中有多少个worker能够工作，分配工作到worker时便有了根据 Presto基础概念-数据源
Connector Presto通过Connector来支持多数据源，一个Connector代表一种数据源，如Hive Connector代表了对Hive数据源的支持。可以认为Connector是由Presto提供的适配多数据源的统一接口
Catalog 针对不同的数据源，Connector和Catalog是一一对应的关系，Catalog包含了schema和data source的映射关系。 Presto基础概念-Query部分
Query 基于SQL parser后获得的执行计划
Stage 根据是否需要shuffle将Query拆分成不同的subplan，每一个subplan便是一个stage
Fragment 基本等价于Stage，属于在不同阶段的称呼，在本门课程可以认为两者等价
Task 单个 Worker 节点上的最小资源管理单元：在一个节点上, 一个 Stage 只有一个 Task, 一个 Query 可能有多个Task
Pipeline Stage 按照 LocalExchange 切分为若干 Operator 集合, 每个 Operator 集合定义一个 Pipeline
Driver Pipeline 的可执行实体 , Pipeline 和 Driver 的关系可类比程序和进程，是最小的执行单元，通过火山迭代模型执行每一个Operator
Split 输入数据描述(数据实体是 Page), 数量上和 Driver 一一对应，不仅代表实际数据源split，也代表了不同stage间传输的数据
Operator 最小的物理算子 Presto基础概念-数据传输部分
Exchange 表示不同 Stage 间的数据传输，大多数意义下等价于 Shuffle
LocalExchange Stage内的 rehash 操作，常用于提高并行处理数据的能力（Task在presto中只是最小的容器，而不是最小的执行单元）

Presto架构图 通信机制

Presto Client / JDBC Client 与Server间通信

Http

Coordinator与Worker间的通信

Thrift / Http

Worker与Worker间的通信

Thrift / Http Http 1.1 VS Thrift

Thrift具有更好的数据编码能力, Http 1.1还不支持头部信息的压缩, Thrift 具有更好的数据压缩率节点状态：
ACTIVE
INACTIVE
SHUTDOWN Shutdown状态的作用：在一个分布式系统中，worker不能直接关闭，因为它可能在跑作业，这样会导致作业失败，所以Shutdown状态代表想要关闭，但还可以处理作业的状态。在实际应用中，当worker变为Shutdown状态coordinator可以感应到，就不会给它调度任何作业。

Presto重要机制：

多租户资源管理——Resource Group

类似Yarn多级队列的资源管理方式
基于CPU、MEMORY、SQL 执行数进行资源使用限制
优点：轻量的Query级别的多级队列资源管理模式
缺点：存在一定滞后性，只会对Group中正在运行的SQL进行判断 多租户下的任务调度——物理计划生成
多租户下的任务调度： stage调度、Task调度、Split调度
stage的调度策略：
1. AllAtOnceExecutionPolicy：同时调度
- 优点：同时启动所有stage，意味着上游可以一边分析一边把分析好的结果传给下游，节省内存使用量，延迟低
- 缺点:会存在一定的任务空跑
1. PhasedExecutionPolicy：分阶段调度（不代表每个stage都分开调度）
- 优点：节省部分资源(eg：join)
- 缺点：有一定延迟
Task调度：
- Task 调度有哪些调度方式
1. HARD_AFFINITY： 计算、存储 Local 模式，保障计算与存储在同一个节点，减少数据传输
2. SOFT_AFFINITY： 基于某些特定算法，如一致性HASH函数，常用于缓存场景，保证相似的 Task 调度到同一个 Worker
3. NO_PREFERENCE： 随机选取，常用于普通的纯计算 Task
Split调度：
1. FIFO：顺序执行，绝对公平
2. 优先级调度：
- 按照固定的时间片，轮巡Split处理数据，处理1s再重新选择一个Split执行
- Split 间存在优先级
- MultilevelSplitQueue 5个优先级level理论上分配的时间占比为16:8:4:2:1
  
  优势:
  - 优先保证小Query快速执行
  - 保障大Query存在固定比例的时间片,不会被完全饿死
内存计算：
- 控制split生成流程
  - 针对每个Task定时检查, 如果 OutputBuffers 使用率低于 0.5 (下游消费较快, 需要提高生产速度), Split 并发度+1
- 控制Operator执行速度
  1. "sink.max-buffer-size" 写入buffer的大小控制
  2. "exchange.max-buffer-size" 读取buffer的大小控制
  3. Buffer 达到最大值时Operator会进入阻塞状态
多数据源联邦查询：将各个数据源进行统一的抽象，最后由presto server进行统一的物理执行。

性能优化实战

常用的性能分析工具
1. Grafana：埋点、系统指标如CPU、内存、网络等的可视化界面，时序化的数据展示
2. Arthas：线上问题排查工具，可在不重启服务的情况下对方法做一些监控
3. Flame Figure（火焰图）：线上问题排查工具，用于分析热点代码占用大量CPU，从而导致服务性能下降的情况。
4. java指令：jstack等指令