Presto 架构原理与优化介绍｜青训营笔记这是我参与「第四届青训营」笔记创作活动的第5天概述大数据与OLAP

这是我参与「第四届青训营」笔记创作活动的第5天

概述

大数据与OLAP系统的严谨

大数据 = 大规模的数据量？

OLAP (Online Analytical Processing) 对业务数据执行多维分析，并提供复杂计算，趋势分析和复杂数据建模的能力。是许多商务智能（BI）应用程序背后的技术。OLAP已经发展为基于数据库通过SQL对外提供分析能力。与MapReduce Job相比，OLAP引擎常通过SQL的形式，为数据分析、数据开发人员提供统一的逻辑描述语言，实际的物理执行由具体的引擎进行转换和优化

常见的OLAP引擎：

预计算引擎：Kylin, Druid
批式处理引擎：Hive, Spark
流式处理引擎：Flink
交互式处理引擎：Presto, Clickhouse, Doris

Presto 的设计思想

Presto最初是由facebook研发的构建于Hadoop/HDFS系统之上的PB级交互式分析引擎，其具有如下的特点：

多租户任务的管理与调度
多数据源联邦查询
支持内存化计算
pipeline式数据处理

Presto 基础概念与原理

基础概念

服务相关

Coordinator：解析SQL语句，生成执行计划，分发执行任务给Worker节点
Worker：执行task处理数据，与其他worker交互传输数据

数据源相关

Connector: 一个connector代表一种数据源。可以认为Connector是由Presto提供的适配多数据源的统一接口
Catalog：管理元信息与实时数据的映射关系

Query相关

Query: 基于 SQL parser 后获得的执行计划
Stage: 根据是否需要 shuffle 将 Query 拆分成不同的 subplan，每个 subplan 是一个 stage
Fragment: 基本等价于stage（不同阶段的叫法）
Task: 单个worker节点上的最小资源管理单位。在一个节点上，一个stage只有一个task，一个query可能有多个task
Pipeline: stage 按照 localExchange 切分为若干 operator 集合，每个operator集合定义个pipeline
Diver: pipeline的执行实体。pipeline与driver的关系可以类比程序与进程的关系，是最小的执行单元，通过火山迭代模型执行每个operator
Split: 输入数据描述（数据实体是page），数量与driver一一对应，不仅代表实际数据源split，也代表了不同stage传输的数据
Operator: 最小的物理算子

数据传输相关

Exchange: 表示不同stage之间的数据传输，大多数意义下等价于shuffle
LocalExchange: stage内的rehash操作，常用于提高并行处理数据的能力（task在presto中只是最小的容器，而不是最小执行单元），默认值为16

核心组件架构介绍

Presto架构图

服务发现 Discovery Service

Worker 配置文件配置 Discovery Service 地址
Worker 节点启动后会向 Discovery Service 注册
Coordinator从 Discovery Service 获取 worker 的地址

通信协议

Presto Client / JDBC Client 与 Server 之间：HTTP
Coordinator 与 Worker 之间：Thrift/HTTP
Worker 与 Worker 之间：Thrift/HTTP

Thrift具有更好的数据编码能力，Http 1.1还不支持头部信息的压缩，Thrift具有更好的数据压缩率

Presto Worker的不同状态：Active/InActive/Shutdown

Presto 重要机制

多租户的资源管理

Resource Group

类似于Yarn多级队列的资源管理方式
基于CPU、MEMORY、SQL 执行数进行资源使用量限制

优点：轻量的query级别的多级队列资源管理模式

缺点：存在一定的滞后性，只会对group中正在运行的sql进行判断

多租户下的任务调度

Stage调度

Task调度

Split调度

内存计算

Pipeline化的数据处理：更好地实现算子间的并行
Back Pressure Mechanism 反压机制
- 控制split生成流程
- 控制operator的执行

多数据源联邦查询

将各个数据源进行统一的抽象，最后由 presto server 进行统一的物理执行

局限性：

元数据管理与映射（每个connector管理一套元数据服务）
谓词下推
数据源分片

Presto 架构原理与优化介绍 ｜ 青训营笔记

概述