这是我参与「第四届青训营」笔记创作活动的第7天

Spark 原理与实践

01.大数据处理引擎Spark介绍

什么是Spark： 多语言引擎、用于单机结点或集群、执行数据工程数据科学机器学习

特点： 统一的方式处理流批的数据、用仪表盘等执行快速的SQL查询分析、适用于大规模的数据科学可以对PB级别的数据执行数据分析、单机上训练机器学习算法并容易扩展到其他机器上。

生态：

特点：

多语言支持：SQL/Java/Scala/Python/R

丰富数据源：内置DataSource……、自定义DataSource……

丰富的API&算子：SparkCore->RDD、SparkSQL->DataFame

02.SparkCore原理解析

RDD执行过程：

【大数据专场学习资料二】第四届字节跳动青训营 - 掘金 (juejin.cn)

划分Stage的整体思路：从后往前推，遇到宽依赖就断开，划分为一个Stage。遇到窄依赖，就将这个RDD加入该Stage中，DAG最后一个阶段会为每个结果的Partition生成一个ResultTask。每个Stage里面的Task数量由最后一个RDD的Partition数量决定，其余的阶段会生成ShuffleMapTask。

当RDD对象创建后，SparkContext会根据RDD对象构建DAG有向无环图，然后将Task提交给DAGScheduler。DAGScheduler根据ShuffleDependency将DAG划分为不同的Stage，为每个Stage生成TaskSet任务集合，并以TaskSet为单位提交给TaskScheduler。TaskScheduler根据调度算法(FIFO/FAIR)对多个TaskSet进行调度，并通过集群中的资源管理器(Standalone模式下是Master，Yarn模式下是ResourceManager)把Task调度(locality)到集群中Worker的Executor，Executor由SchedulerBackend提供。

内存管理：

Spark 作为一个基于内存的分布式计算引擎，Spark采用统一内存管理机制。重点在于动态占用机制。

设定基本的存储内存(Storage)和执行内存(Execution)区域，该设定确定了双方各自拥有的空间的范围，UnifiedMemoryManager统一管理Storage/Execution内存。

双方的空间都不足时，则存储到硬盘；若己方空间不足而对方空余时，可借用对方的空间。

当Storage空闲，Execution可以借用Storage的内存使用，可以减少spill等操作， Execution内存不能被Storage驱逐。Execution内存的空间被Storage内存占用后，可让对方将占用的部分转存到硬盘，然后"归还"借用的空间。

当Execution空闲，Storage可以借用Execution内存使用，当Execution需要内存时，可以驱逐被Storage借用的内存，可让对方将占用的部分转存到硬盘，然后"归还"借用的空间

user memory存储用户自定义的数据结构或者spark内部元数据

Reserverd memory：预留内存，防止OOM，

堆内(On-Heap)内存/堆外(Off-Heap)内存：Executor 内运行的并发任务共享 JVM 堆内内存。为了进一步优化内存的使用以及提高 Shuffle 时排序的效率，Spark 可以直接操作系统堆外内存，存储经过序列化的二进制数据。减少不必要的内存开销，以及频繁的 GC 扫描和回收，提升了处理性能。

03.SparkSQL原理解析

SparkSQL执行过程

SQL Parse：将SparkSQL字符串或DataFrame解析为一个抽象语法树/AST，即Unresolved Logical Plan

Analysis：遍历整个AST，并对AST上的每个节点进行数据类型的绑定以及函数绑定，然后根据元数据信息Catalog对数据表中的字段进行解析。利用Catalog信息将Unresolved Logical Plan解析成Analyzed Logical plan

Logical Optimization：该模块是Catalyst的核心，主要分为RBO和CBO两种优化策略，其中RBO是基于规则优化，CBO是基于代价优化。利用一些规则将Analyzed Logical plan解析成Optimized Logic plan

Physical Planning: Logical plan是不能被spark执行的，这个过程是把Logic plan转换为多个Physical plans

CostModel: 主要根据过去的性能统计数据，选择最佳的物理执行计划(Selected Physical Plan)。

Code Generation: sql逻辑生成Java字节码

影响SparkSQL性能两大技术：

Optimizer：执行计划的优化，目标是找出最优的执行计划

Runtime：运行时优化，目标是在既定的执行计划下尽可能快的执行完毕。

Spark 原理与实践 ｜ 青训营笔记

Spark 原理与实践

01.大数据处理引擎Spark介绍

02.SparkCore原理解析

03.SparkSQL原理解析

Spark 原理与实践｜青训营笔记