Spark原理与实践 | 青训营笔记

59 阅读1分钟

屏幕截图 2022-07-24 225240.png 这是我参与「第四届青训营 」笔记创作活动的的第5天

前言:什么是Spark?

Spark,是一种"One Stack to rule them all"的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方,对Spark的定义就是:通用的大数据快速处理引擎。 Spark使用Spark RDD、Spark SQL、 Spark Streaming,MLlib,GraphX成功解决了大数据领城中,离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题。

思维导图

image.png

什么是RDD?

image.png

如何创建RDD?

image.png

RDD算子

image.png

RDD依赖

image.png

Scheduler

image.png

Memory Management

image.png

Shuffle

image.png

image.png

image.png

Catalyst优化RBO

image.png

AQE

image.png

image.png

image.png

image.png

Runtime Filler

image.png

Shuffle的稳定性解决方案

image.png

SQL执行问题解决方案

image.png

总结:我们学大数据专业需要将Spark以及Flink等学好。

image.png