这是我参与「第四届青训营」笔记创作活动的第7天.

一、概述

1、大数据与OLAP的演进

（1）大数据

我们参考马丁.希尔伯特的总结:大数据其实是在2000年后，因为信息化的快速发展。信息交换通信和网络带宽的大幅增长、信息存储计算机存储量的大幅增长、信息处理整理、转换、分析数据的能力大幅增长三个方面能力的大幅增长而产生的数据。

（2）Hadoop基于廉价机器的存储分离的大规模分布式处理系统

存储分离：不需要存储结点、计算结点在同一台物理主机上。这样可以降低成为，例如可以在CPU性能好的机器上进行计算，在CPU性能差但是磁盘大的机器上负责存储。

谷歌在2003、2004年发布Google File System论文介绍分布式存储，MapReduce论文。
2008年Hadoop成为Apache顶级项目。

（3）OLAPOnline Analytical Processing：对业务数据执行多维分析、并提供复杂计算、趋势分析和复杂数据建模的能力，是许多商务智能（BI）应用程序背后的技术。

（4）OLAP VS MapReduce

MR代表了抽象的物理执行模型，使用门槛较高。
与MR Job相比，OLAP引擎通过SQL的形式，为数据分析、数据开发人员提供统一的逻辑描述语言，实际的物理执行由具体的引擎进行转换优化。

（5）OLAP核心概念

维度：表中电子产品、上海、四月等。
度量：某种东西某段时间在某地区的销量。

（6）常见引擎

预计算引擎：Kylin，Druid 预计算：空间换实践，假设要计算一年的量，把天聚合成月后直接加十二个月即可
批式处理引擎注重吞吐量模型：Hive、Spark
流式处理引擎注重实时性、产生数据、用户体验（多久输出结果）：Flink
交互式处理引擎查询时延，做数据分析。提升用户体验：Presto、Clickhouse、Doris

2、Presto设计思想

presto最初是由FeceBook研发的构建于Hadoop/HDFS系统之上的PB级交互式分析引擎。

（1）特点

多租户任务的管理与调度。
多数据源联邦查询。联邦查询：支持多个数据源join做联合分析
支持内存化计算。
Pipeline式数据处理。

屏幕截图 2022-08-02 215553.jpg 下层数据源，上层数据报表把结果展示给用户。

（2）二次研发

二、Presto基础原理与概念

1、基础概念

（1）服务相关（架构图）

屏幕截图 2022-08-02 220205.jpg 黄色是数据源，绿色是Presto服务。可以看到一个Presto服务对应一个数据源

Coordinator负责调度：解析SQL语句、生成执行计划、分发计划任务给worker节点。
Worker:执行Task处理数据、与其他worker交互传输数据。

在一个presto集群中，存在一个coordinator节点和多个worker节点，coordinator节点是管理节点，而worker节点就是工作节点，在每个worker节点上都会存在一个worker服务进程，该服务进程主要进行数据的处理以及task的执行，worker服务进程每隔一定的时间都会向coordinator上的服务发送心跳，接受调度。当客户端提交一个查询的时候，coordinator则会从当前存活的worker列表中选择出适合的worker节点去运行task，而worker在执行每个task的时候又会进一步对当前task读入的每个split进行一系列的操作和处理。