Spark 原理与实践 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第5天课程目录： 1. 大数据处理引擎

这是我参与「第四届青训营」笔记创作活动的第5天

课程目录：

1. 大数据处理引擎Spark介绍

2. SparkCore原理解析

3. SparkSQL原理解析

4. 业界挑战与实践

1.1 大数据处理技术栈

1.2 常见大数据处理链路

1.3 spark生态 & 特点

1.4 Spark生态组件：

独立调度器、Yarn、Mesos、Kubernetes： Spark框架可以高效地在一个到数千个节点之间伸缩计算，集群管理器则主要负责各个节点的资源管理工作，为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器（Cluster Manager）上运行。

RDD: 弹性分布式数据集，是一个容错的、并行的数据结构
RDD算子: 对任何函数进行某一项操作都可以认为是一个算子，RDD算子是RDD的成员函数
Transform(转换)算子: 根据已有RDD创建新的RDD
Action(动作)算子: 将在数据集上运行计算后的数值返回到驱动程序，从而触发真正的计算
DAG: 有向无环图，Spark中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG
RDD依赖： 描述父子RDD之类的血缘关系，包括宽依赖和窄依赖。
- 宽依赖： 父RDD可以对应多个子RDD，有shuffle
- 窄依赖： 父与子RDD为一一对应的关系

有Shuffle的是宽依赖。窄依赖1对1。宽依赖：新的RDD的一个分区的数据依赖于旧的RDD多个分区的数据（因此会shuffle）

DAGScheduler： 将作业的DAG划分成不同的Stage，每个Stage都是TaskSet任务集合，并以TaskSet为单位提交给TaskScheduler。
TaskScheduler： 通过TaskSetManager管理Task，并通过集群中的资源管理器（Standalone模式下是Master，Yarn模式下是ResourceManager）把Task发给集群中Worker的Executor
Shuffle： Spark中数据重分发的一种机制。

Catalyst优化器： SparkSQL核心模块，主要是对执行过程中的执行计划进行处理和优化。

SparkSql执行过程：

AQE： AQE对于整体的Spark SQL的执行过程做了相应的调整和优化，它最大的亮点是可以根据已经完成的计划结点真实且精确的执行统计结果来不停的反馈并重新优化剩下的执行计划。

AQE框架三种优化场景：

RuntimeFilter： 实现在Catalyst中动态获取Filter内容做相关优化，当我们将一张大表和一张小表等值连接时，我们可以从小表侧收集一些统计信息，并在执行join前将其用于大表的扫描，进行分区修剪或数据过滤。可以大大提高性能

Runtime优化分两类：

4.1 Shuffle稳定问题

4.2 SQL执行性能问题

4.3 参数推荐/作业诊断： Spark参数很多，参数不合理的作业，对资源利用率/Shuffle稳定性/性能有非常大影响。自动化参数推荐/作业诊断——自动化