Spark 原理与实践 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第6天。 Spark 原理与实践大

这是我参与「第四届青训营」笔记创作活动的第6天。

Spark 原理与实践

大数据处理引擎Spark介绍 Spark生态组件包括： Spark Core：Spark核心组件，它实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。 Spark SQL：用来操作结构化数据的核心组件，通过Spark SQL可以直接查询Hive、HBase等多种外部数据源中的数据。 Spark Structured Streaming：Spark提供的流式计算框架，支持高吞吐量、可容错处理的实时流式数据处理。 MLlib：Spark提供的关于机器学习功能的算法程序库，包括分类、回归、聚类、协同过滤算法等，还提供了模型评估、数据导入等额外的功能。 GraphX：Spark提供的分布式图处理框架，拥有对图计算和图挖掘算法的API接口以及丰富的功能和运算符。独立调度器、Yarn、Mesos、Kubernetes：Spark框架可以高效地在一个到数千个节点之间伸缩计算，集群管理器则主要负责各个节点的资源管理工作，为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器（Cluster Manager）上运行。

Spark运行架构和工作原理：在集群上运行时，Spark包括了多个独立的进程，这些进程之间通过驱动程序中的SparkContext对象进行协调，SparkContext对象能够与多种集群资源管理器通信，只要与集群资源管理器连接，Spark会为该应用在各个集群节点上申请执行器，用于执行计算任务和存储数据。Spark将应用程序代码发送给所申请到的执行器，SparkContext对象将分割出的任务发送给各个执行器去运行。

Spark 作为一个基于内存的分布式计算引擎，Spark采用统一内存管理机制。重点在于动态占用机制。

SparkCore： RDD算子执行过程：当RDD对象创建后，SparkContext会根据RDD对象构建DAG有向无环图，然后将Task提交给DAGScheduler。DAGScheduler根据ShuffleDependency将DAG划分为不同的Stage，为每个Stage生成TaskSet任务集合，并以TaskSet为单位提交给TaskScheduler。TaskScheduler根据调度算法(FIFO/FAIR)对多个TaskSet进行调度，并通过集群中的资源管理器(Standalone模式下是Master，Yarn模式下是ResourceManager)把Task调度(locality)到集群中Worker的Executor，Executor由SchedulerBackend提供。

SparkSQL：影响SparkSQL性能两大技术：

Optimizer：执行计划的优化，目标是找出最优的执行计划
Runtime：运行时优化，目标是在既定的执行计划下尽可能快的执行完毕。