这是我参与「第四届青训营」笔记创作的第5天
Spark原理与实践
- 大数据处理引擎Spark介绍
- 大数据处理技术栈
- 常见大数据处理链路
- 开源大数据处理引擎:Spark,Flink……
- Spark的生态&特点
- Spark运行架构&部署方式:Spark local mode,Spark Standalone mode, on YARN/K8S
2.SparkCore原理解析
- RDD:内置RDD,自定义RDD
- transform算子,action算子
- RDD依赖:窄依赖,宽依赖
- scheduler
- memory management:
- executor内存主要有两类:storage和execution
- management
- shuffle
- SparkSQL原理解析
- Catalyst优化器-RBO
- AQE
- runtime filter
- bloom runtime filter
- Codegen
- 实践问题
- shuffle稳定性问题
- shuffle稳定性解决方案
- SQL执行性能问题
- 参数推荐/作业诊断