SparkCore与3.0优化｜青训营笔记这是我参与「第四届青训营」笔记创作活动的第5天这一章我们主要学习spark

这是我参与「第四届青训营」笔记创作活动的第5天

这一章我们主要学习spark core原理和spark3.0优化，阅读本文建议有一定的spark基础

首先我们学习spark的运行架构

这里默认下图所有的术语都了解

spark的架构是主从模型：

那么简单介绍一下，一个应用被提交到执行中间经历了什么

前面我们讲了应用提交后，Driver会根据代码生成logical plan，然后再生成physical plan

那么Driver具体是怎么操作的呢？

我们认为父RDD中的每个partition和子RDD中的partition是一对一的关系，则是窄依赖，否则是宽依赖

看下图就比较好理解了

下面我们讲一下Spark的内存管理机制，在运行spark任务之前，我们首先就要调整内存的参数设置

Excutor内存主要是Storage和Excution，这两个内存是可以动态调整的，他们的内存空间会互相借用

在设置这些参数的时候，比如说我代码中缓存和广播的数据比较多，那就调大Storage。Shuffle的量比较多就调大Execution

我们写spark一般用sql写，那么sql是怎么被转化成spark代码，比如rdd的呢？

先解析成sql抽象语法树，然后遍历这个sql树上的节点，对元数据信息进行绑定，生成逻辑计划，然后经过RBO、CBO生成优化后的逻辑计划，然后再生成多个物理计划，然后再根据CBO选择物理计划转化成spark代码

sql的一生在第一节课也讲过了，这里就不再多讲了，我们这一章主要关注的是spark3.0在sql上的优化，这里仅简单介绍

对参与join的表，提前进行分区裁剪或者数据过滤，然后再join

从提高cpu的利用率的角度来进行runtime优化