Presto 架构| 青训营笔记

63 阅读2分钟

这是我参与「第四届青训营 」笔记创作活动的第15天

概述

  1. 介绍大数据与 OLAP 的演进之路,并简单介绍 Presto 的设计理念
  2. 介绍 Presto 的基础概念与原理,加深对Presto基础概念的理解
  3. 对 Presto 的特色和重要机制进行讲解和剖析
  4. 基于实际工作中遇到的case,介绍 Presto 常用的优化工具,以及 Presto 在字节内部的相关优化

什么是大数据

在信息化时代背景下,由于信息交互,信息存储,信息处理能力大幅增加而产生的数据

什么是OLAP

OLAP(OnLine Analytical Processing) 对业务数据执行多维分析,并提供复杂计算,趋势分析和复杂数据建模的能力。是许多商务智能(BI)应用程序背后的技术。现如今OLAP已经发展为基于数据库通过SQL对外提供分析能力

Presto最初是由facebook研发的构建于Hadoop/HDFS系统之上的PB级交互式分析引擎,其具有如下的特点:

  • 多租户任务的管理与调度
  • 多数据源联邦查询
  • 支持内存化计算
  • pipeline式数据处理

Presto多数据源支持的优点与缺点

优点:支持多数据源的联邦查询
缺点:针对不同数据源,还存在许多问题需要解决

  • 谓词下推
  • 每个数据源都需要单独的一套catalog管理
  • 如何针对数据源进行分片操作

Presto数据源

  • Connector
    Presto通过Connector来支持多数据源,一个Connector代表一种数据源,如Hive Connector代表了对Hive数据源的支持。可以认为Connector是由Presto提供的适配多数据源的统一接口
  • Catalog
    针对不同的数据源,Connector和Catalog是一一对应的关系,Catalog包含了schema和data source的映射关系。


参考链接:juejin.cn/post/712494… 来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。