这是我参与「第四届青训营」笔记创作活动的的第5天
一、大数据处理引擎Spark介绍
- 什么是Spark?
spark是一个用来实现快速,通用的集群计算平台。spark适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理。通过在一个统一的框架下支持这些不同的计算,spark使我们可以简单而低耗地把各种处理流程整合在一起。
- Spark生态和特点
下载编译
提交命令
二、SparkCore原理解析
SparkCore
RDD
创建RDD
RDD算子
RDD依赖
RDD执行流程
Scheduler
Memory Management
shuffle
三、SparkSQL 原理解析
SparkSQL
Catalyst优化器-RBD
Adaptive Query Execution(AQE)
AQE - Coalescing Shuffle Partitions
AQE - Switching Join Strategies
AQE - Optimizing Skew Joins
Runtime Filter
Bloom Runtime Filter
Codegen - Expression
Codegen - WholeStageCodegen