Presto 架构原理与优化介绍 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的的第10天，还是和往常一样，记

这是我参与「第四届青训营」笔记创作活动的的第10天

Presto基础概念

与服务相关的主要有2个节点，一个做调度体系，另一个完成SQL语句的处理

Connector
- Presto是一个多数据源引擎，可以外接多个不同的存储引擎，如HDFS，Cassandra等，Connector就相当于处理这些存储引擎的统一接口，如图中的Hive Connector，每一个Connector都会对应一个真实的数据源。
Catalog
- 管理元信息与实际数据的映射关系，以Hive为例，哪一个目录对应哪一张表格的哪个分区，就是Catalog的内容。

每个Stage又可以通过LocalExchange切分成多个Operator集合，如下:

可以看到我们将一个Task不断细分，如果我们要衡量某个任务某个Stage的真实并行度的话，可以计算在不同Pipeline下Split（Driver）的数目之和。

Presto架构图的细节:

对于分布式组件而言，一个分布式系统的关键是:如何有效的调度我们的资源，即这个服务是怎么做到被发现的，以及多个服务之间的一致性协调。

实现服务发现主要使用了Discovery Service来完成:

Discovery Service：
- Worker配置文件中包含Discovery Service地址，每个Worker节点启动后会向Discovery Service注册，将它们的地址保存在Service，Coordiantor再从Discovery Service中获取Worker节点的信息。

Presto中通信使用了2种协议，分别是Http和Thrift，由于Http协议比较繁杂，我们在内部节点之间传递数据有时并不需要那么多的头部信息之类，为了提高数据传输效率就使用了Thrift，它具有更好的数据编码能力，以及数据压缩率。
不同节点之间使用的协议:

我们来看一下SHUDOWN状态，在Woker节点要关闭它的服务时，不能自己就停止服务，需要设置SHUDOWN状态，Coordiantor发现后就会设置定时时间，让Worker内的Task尽可能的完成，时间结束后就关闭这个节点。

两个策略:

Task是最小的资源管理单位，它的数量主要靠以下内容确定:

选择什么样的节点：

处理多个SQL语句时，可能会有资源占用大的SQL语句，在这段时间可能会有耗时较短的SQL语句，我们就会想能不能将它提前执行，Split调度就负责完成这个任务。

它按照固定时间片，轮训Split处理数据，处理1s，再重新选一个Split执行，且Split之间存在优先级，像小SQL语句的Split的优先级就比较高。这样做既能提前处理小SQL语句，又能防止大SQL语句被饿死（一直被提前）。

将各个数据源进行统一的抽象，最后由Presto Server进行统一的物理执行。