这是我参与「第四届青训营 」笔记创作活动的第15天
概述
- 介绍大数据与 OLAP 的演进之路,并简单介绍 Presto 的设计理念
- 介绍 Presto 的基础概念与原理,加深对Presto基础概念的理解
- 对 Presto 的特色和重要机制进行讲解和剖析
- 基于实际工作中遇到的case,介绍 Presto 常用的优化工具,以及 Presto 在字节内部的相关优化
什么是大数据
在信息化时代背景下,由于信息交互,信息存储,信息处理能力大幅增加而产生的数据
什么是OLAP
OLAP(OnLine Analytical Processing) 对业务数据执行多维分析,并提供复杂计算,趋势分析和复杂数据建模的能力。是许多商务智能(BI)应用程序背后的技术。现如今OLAP已经发展为基于数据库通过SQL对外提供分析能力
Presto最初是由facebook研发的构建于Hadoop/HDFS系统之上的PB级交互式分析引擎,其具有如下的特点:
- 多租户任务的管理与调度
- 多数据源联邦查询
- 支持内存化计算
- pipeline式数据处理
Presto多数据源支持的优点与缺点
优点:支持多数据源的联邦查询
缺点:针对不同数据源,还存在许多问题需要解决
- 谓词下推
- 每个数据源都需要单独的一套catalog管理
- 如何针对数据源进行分片操作
Presto数据源
- Connector
Presto通过Connector来支持多数据源,一个Connector代表一种数据源,如Hive Connector代表了对Hive数据源的支持。可以认为Connector是由Presto提供的适配多数据源的统一接口 - Catalog
针对不同的数据源,Connector和Catalog是一一对应的关系,Catalog包含了schema和data source的映射关系。
参考链接:juejin.cn/post/712494…
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。