Spark 原理与实践笔记（二）| 青训营笔记Spark 原理与实践笔记（二）| 青训营笔记这是我参与「第四届青训营

Spark 原理与实践笔记（二）| 青训营笔记

这是我参与「第四届青训营 -大数据场」笔记创作活动的第7天

SQL Parse：将SparkSQL字符串或DataFrame解析为一个抽象语法树/AST，即Unresolved Logical Plan
Analysis：遍历整个AST，并对AST上的每个节点进行数据类型的绑定以及函数绑定，然后根据元数据信息Catalog对数据表中的字段进行解析。利用Catalog信息将Unresolved Logical Plan解析成Analyzed Logical plan
Logical Optimization：该模块是Catalyst的核心，主要分为RBO和CBO两种优化策略，其中RBO是基于规则优化，CBO是基于代价优化。利用一些规则将Analyzed Logical plan解析成Optimized Logic plan
Physical Planning：Logical plan是不能被spark执行的，这个过程是把Logic plan转换为多个Physical plans
CostModel：主要根据过去的性能统计数据，选择最佳的物理执行计划(Selected Physical Plan)。
Code Generation：sql逻辑生成Java字节码

支持的优化场景：

实现在Catalyst中。动态获取Filter内容做相关优化，当我们将一张大表和一张小表等值连接时，我们可以从小表侧收集一些统计信息，并在执行join前将其用于大表的扫描，进行分区修剪或数据过滤。可以大大提高性能。

Runtime优化分两类：
- 全局优化：从提升全局资源利用率、消除数据倾斜、降低IO等角度做优化。包括AQE。
- 局部优化：提高某个task的执行效率，主要从提高CPU与内存利用率的角度进行优化。依赖Codegen技术。
Bloom RuntimeFilter：利用bloomfilter对数据源进行过滤

从提高cpu的利用率的角度来进行runtime优化。

表达式常规递归求值语法树。需要做很多类型匹配、虚函数调用、对象创建等额外逻辑，这些overhead远超对表达式求值本身，为了消除这些overhead，Spark Codegen直接拼成求值表达式的java代码并进行即时编译

传统的火山模型：SQL经过解析会生成一颗查询树，查询树的每个节点为Operator，火山模型把operator看成迭代器，每个迭代器提供一个next()接口。通过自顶向下的调用 next 接口，数据则自底向上的被拉取处理，火山模型的这种处理方式也称为拉取执行模型，每个Operator 只要关心自己的处理逻辑即可，耦合性低。
火山模型问题：数据以行为单位进行处理，不利于CPU cache 发挥作用；每处理一行需要调用多次next() 函数，而next()为虚函数调用。会有大量类型转换和虚函数调用。虚函数调用会导致CPU分支预测失败，从而导致严重的性能回退
Spark WholestageCodegen：为了消除这些overhead，会为物理计划生成类型确定的java代码。并进行即时编译和执行。

Codegen打破了Stage内部算子间的界限，拼出来跟原来的逻辑保持一致的裸的代码（通常是一个大循环）然后把拼成的代码编译成可执行文件。

在大规模作业下，开源ESS的实现机制容易带来大量随机读导致磁盘的IOPS瓶颈、fetch请求积压等问题，进而导致运算过程中经常出现stage重算及作业失败继而引起资源使用的恶性循环，严重影响SLA

压榨CPU资源（CPU瓶颈）

问题：
- Spark参数很多，资源类/shuffle/join/agg等，调参难度大
- 参数不合理的作业对资源利用率/shuffle稳定性/性能有非常大影响
- 线上作业失败/运行慢，用户排查难度大
解决方案：
- 自动参数推荐/作业诊断