Presto 架构原理与优化介绍 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第6天概述什么是大数据

这是我参与 「第四届青训营」 笔记创作活动的第6天

概述

什么是大数据

在信息化时代背景下，由于信息交互，信息存储，信息处理能力大幅增加而产生的数据

大数据与OLAP的演进：

Hadoop：基于廉价机器的存算分离的大规模分布式处理系统

谷歌的三驾马车

08年，Hadoop成为Apache顶级项目
什么是OLAP

OLAP (OnLine Analytical Processing) 对业务数据执行多维分析，并提供复杂计算，趋势分析和复杂数据建模的能力。是许多商务智能（BI）应用程序背后的技术。现如今OLAP已经发展为基于数据库通过SQL对外提供分析能力，为数据分析、数据分析、数据开发人员提供统一的逻辑描述语言，实际的物理执行由具体的引擎进行转换和优化

OLAP与数据仓库：

数据仓库与OLAP的关系是互补的，现代OLAP系统一般以数据仓库作为基础，即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取

OLAP不数据仓库.jpg OLAP查询分析过程：

OLAP查询分析过程.jpg

OLAP定义：

根据OLAP产品的实际应用情况和用户对OLA产品的需求，提出了一种对OLAP更简单明确的定义，即FASMI，多维信息的快速分析（Fast Analysis of shared Multidimensional information）

F—对用户请求快速响应

A—可以应用多种统计分析工具、算法对数据进行分析

S—多个用户同时存取数据时，保证系统的安全性

M—体现OLAP应用多维的实质

I—指应用所需的数据及其导出信息。

OLAP多维数据分析

多维数据分析可以对以多维形式组织起来的数据进行上卷、下钻、 切片、切块、旋转**等各种分析操作，以便剖析数据，使得分析者、决策者能够从多个角度、多个侧面观察数据库中的数据，从而深入了解包含在数据中的信息和内涵，帮助其辅助决策。

切片：对多维数据集的某个维度选定一维成员进行分析。舍弃一些角度，能够更好的了解多维数据集，将注意力集中在较少的维度上进行观察。

切片2.jpg

切片1.jpg 切块： 在多维的数据集上对两个维度选定维成员的操作，如下图中从全球运输总立方体中，从地区维度和线路维度选择部分维成员进行切块。

切块0.jpg

切块.jpg

钻取(Drill) ：钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作，钻取的深度不维所划分的层次相对应。

上卷是为了隐藏细节而得到综合数据，在数据立方体中执行聚集操作，通过在维度级别中上升或通过消除某个或某些维度来观察更概括的数据。如将时间维度聚集成上半年和下半年。

下钻是为了得到细节数据，从更具体的抽象层次呈现数据。通过在维度级别中下降或通过引入某个或某些维度来更细致的观察数据。如上图中按月进行时间维划分，得到每个月具体的情况。

下钻1.jpg

下钻.jpg

Presto设计理念

Presto最初是由facebook研发的构建于Hadoop/HDFS系统之上的PB级交互式分析引擎，其具有如下的特点：

多租户任务的管理与调度
多数据源联邦查询
支持内存化计算
pipeline式数据处理

基础概念

Presto基础概念主要可以分为哪几类？
1. 服务相关概念
  - coordinator
    - 解析SQL语句
    - 生成执行计划
    - 分发执行任务给worker节点
  - worker
    - 执行task处理数据
    - 与其他work交互传输数据
2. 数据源相关概念
  - connector：一个connector 代表一种数据源。可以认为 connector 是由 presto 提供的适配多数据源的统一接口
  - catalog：管理元信息与实际数据的映射关系
3. Query相关概念
  - query：基于SQL Parser 后获得的执行计划
  - stage：根据是否需要 shuffle 将 query 拆分成不同的 subplan ，每一个 subplan 便是一个 stage
  - Fragment：基本等价于 stage ，属于在不同阶段的称呼
  - Task：单个 worker 节点上的最小资源管理单元在一个节点上，一个stage 只有一个 Task，一个Query 可能有多个Task
  - Pipeline：Stage 按照 LocalExchange 切分为若干 Operator 集合, 每个 Operator 集合定义一个 Pipeline
  - Driver：Pipeline 的可执行实体 , Pipeline 和 Driver 的关系可类比程序和进程，是最小的执行单元，通过火山迭代模型执行每一个Operator
  - Split：输入数据描述(数据实体是 Page), 数量上和 Driver 一一对应，不仅代表实际数据源split，也代表了不同stage间传输的数据
  - Operator：最小的物理算子，Presto基础概念-数据传输部分
4. 数据传输相关概念
  - Exchange：表示不同 Stage 间的数据传输，大多数意义下等价于 Shuffle
  - LocalExchange：Stage内的 rehash 操作，常用于提高并行处理数据的能力（Task在presto中只是最小的容器，而不是最小的执行单元）

Presto 的通信方式有哪些，Thrift 通信的优势

Http 1.1 vs Thrift

Thrift 具有更好的数据编码能力，Http 1.1 还不支持头部信息的压缩，Thrift 具有更好的数据压缩率

Presto Worker的不同状态
1. Active：worker节点状态是活跃的状态
2. InActive：worker节点不是活跃的状态
3. Shutdown：不是worker本身关闭就关闭，shutdown这个状态代表我想要进入关闭，但是还有工作节点还在工作，这个时候不会调度新的工作，直到目前所有的 worker 都执行完，就进入down状态
  - Graceful Shutdown （优雅的扩容器）
Presto架构图

重要机制

Presto用户多租户隔离的手段是什么？
1. Presto 通过Resource Group对不同的用户创建不同Group从而实现不同租户，不同场景的资源管理
Presto Resource Group的优缺点

优点：支持通配符的形式，对不同租户，不同提交场景下的用户进行限制；轻量的 Query 级别的多队列资源管理模式

缺点：资源的管理和判断是以当前用户正在运行的SQL资源使用量为基准，对于低频大SQL场景不太适用；存在一定滞后性，只会对 Group 中正在运行的 SQL 进行判断

多租户下的任务调度——物理计划生成

Presto 是从哪几个方面实现了多租户的任务调度
1. Stage 调度策略
2. Task 的节点选择策略
3. Split 调度策略
Presto Stage调度的方式有哪些？
1. AllAtOnceExecutionPolicy：同时调度，延迟点，会存在任务空跑
2. PhasedExecutionPolicy：分阶段调度，有一定延迟，节省部分资源
3. 典型的应用场景（join 查询）
  - Build端：右表构建用户 join 的 hashtable
  - Probe端：对用户左表数据进行探查，需要等待build端完成
  - Build 端构建hashtable 端时，probe端一直是空跑的
Presto 进行 Task 调度时，有哪些调度方式？
1. HARD_AFFINITY： 计算、存储 Local 模式，保障计算与存储在同一个节点，减少数据传输
2. SOFT_AFFINITY： 基于某些特定算法，如一致性HASH函数，常用于缓存场景，保证相似的 Task 调度到同一个 Worker
3. NO_PREFERENCE： 随机选取，常用于普通的纯计算 Task
4. task 的数量如何确定？
  - source：根据数据meta 决定分配多少个节点
  - Fixed：hash partition count 确定，如集群节点数量
  - sink：汇聚结果，一台机器
  - scaled：无分区限制，可扩展，如write数据
  - coordinator_Only：只需要coordinator 参与

spilt 调度

FIFO：顺序执行，绝对公平

优先级调度：快速响应

按照固定的时间片，轮训 split 处理数据，处理 1s，再重新选择一个 split 执行
split 间存在优先级

MultilevelSplitQuery：5个优先级 level 理论上分配时间占比为16:8:4:2:1（2-based）

优势：

优先保证小Query 快速执行
保证大Query存在固定比例的时间片，不会被完全饿死

Presto是如何实现Back pressure mechanism的（内存计算）
1. 控制split生成流程
2. 针对每个Task定时检查, 如果 OutputBuffers 使用率低于 0.5 (下游消费较快, 需要提高生产速度), Split 并发度+1
3. 控制Operator执行速度
4. "sink.max-buffer-size" 写入buffer的大小控制
5. "exchange.max-buffer-size" 读取buffer的大小控制
6. Buffer 达到最大值时Operator会进入阻塞状态
Presto多数据源支持的优点与缺点

优点：支持多数据源的联邦查询

缺点：针对不同数据源，还存在许多问题需要解决
- 谓词下推
- 每个数据源都需要单独的一套catalog管理
- 如何针对数据源进行分片操作

性能优化实战

常用的性能分析工具
1. Grafana：埋点、系统指标如CPU、内存、网络等的可视化界面，时序化的数据展示
  - Java相关指令：
    - jstack 查看 Java线程栈信息，排查是否有死锁，或者异常线程存在
    - JMX（Java Management Extensions）是一个为应用程序植入管理功能的框架，常用来做一些监控指标的统计收集
    - JMAP & GC 日志等等内存分析工具
2. Arthas
3. Flame Figure（火焰图）：用于分析热点代码占用大量 CPU ，从而导致服务性能下降的情况。
4. java指令：jstack等指令
Arthas在presto常用哪些命令
1. watch：监控每个函数入参、返回参数、异常等信息
3. trace：统计函数内每一步的执行时间
通过火焰图如何分析性能瓶颈

火焰图用于分析热点代码占用大量cpu,从而导致服务性能下降的情况。如下图，自底向上为调用关系。上层宽度越宽表示当前函数cpu耗时越久，我们关注最宽的函数调用。