这是我参与「第四届青训营 」笔记创作活动的第5天,在第五节课中主要了解到了大数据处理引擎Spark有关的知识。
大数据处理引擎Spark介绍
大数据处理技术栈
常见大数据处理链路
Spark生态特点:
- 统一引擎,支持多种分布式场景
- 多语言支持
- 可读写丰富数据源
- 丰富灵活的API算子
- 支持K8S/YARN/Mesos资源调度
SparkCore原理解析
- SparkCore
- RDD
- Scheduler
- Memory Management
- Shuffle
SparkSQL原理解析
- SparkSQL
- Catalyst优化器
- AQE
- Runtime Filter
- Bloom Runtime Filter
- Codegen
业界挑战与实践
- Shuffle稳定性问题
- SQL执行性能问题