Presto 架构原理|青训营笔记这是我参与【第四届青训营-大数据场】笔记创作活动的第8天 Distinct计算状态复

这是我参与【第四届青训营-大数据场】笔记创作活动的第8天

大数据=大规模的数据量?
关于大数据这里我们参考马丁·希尔伯特的总结:大数据其实是在2000年后，因为信息化的快速发展。信息交换、信息存储、信息处理三个方面能力的大幅增长而产生的数据。
OLAP(OnLine Analytical Processing)对业务数据执行多维分析，并提供复杂计算，趋势分析和复杂数据建模的能力。是许多商务智能(Bl)应用程序背后的技术。

1.MapReduce 代表了抽象的物理执行模型，使用门槛较高 2.与 Mapreduce Job 相比，OLAP 引擎常通过 SQL 的形式，为数据分析、数据开发人员提供统一的逻辑描述语言，实际的物理执行由具体的引擎进行转换和优化。

Connector: 一个 Connector 代表一种数据源。可以认为 Connector 是由 Presto 提供的适配多数据源的统一接口。

Catalog: 管理元信息与实际数据的映射关系。基础概念介绍-Query 相关
Query 基于 SQL parser 后获得的执行计划

根据是否需要 shuffle 将 Query 拆分成不同的 subplan，每一个 subplan 便是一个 stage Fragment

基本等价于 Stage，属于在不同阶段的称呼，在本门课程可以认为两者等价

Task

单个 Worker 节点上的最小资源管理单元: 在一个节点上,一个 Stage 只有一个 Task, 一个 Query 可能有多个Task基础概念介绍-Query相关

Pipeline

Stage 按照 LocalExchange 切分为若干 Operator 集合, 每个 Operator 集合定义一个 Pipeline.

Driver

Pipeline 的可执行实体，Pipeline 和 Driver 的关系可类比程序和进程，是最小的执行单元，通过火山迭代模型执行每一个Operator.

输入数据描述(数据实体是 Page), 数量上和 Driver --对应，不仅代表实际数据源split，也代表了不同stage间传输的数据。

Operator

最小的物理算子。基础概念介绍-数据传输相关

1.Worker 配置文件配置 Discovery Service地址

通信机制

Http 1.1 VS Thrift