这是我参与「第四届青训营 」笔记创作活动的的第5天
前言:什么是Spark?
Spark,是一种"One Stack to rule them all"的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方,对Spark的定义就是:通用的大数据快速处理引擎。 Spark使用Spark RDD、Spark SQL、 Spark Streaming,MLlib,GraphX成功解决了大数据领城中,离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题。
思维导图:
什么是RDD?
如何创建RDD?
RDD算子
RDD依赖
Scheduler
Memory Management
Shuffle
Catalyst优化RBO
AQE
Runtime Filler
Shuffle的稳定性解决方案
SQL执行问题解决方案
总结:我们学大数据专业需要将Spark以及Flink等学好。