五、【计算】Spark原理与实践（上） | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第九天 👉引言💎

这是我参与「第四届青训营」笔记创作活动的第九天

👉引言💎

学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。热爱写作，愿意让自己成为更好的人...... ......

	铭记于心
	🎉✨🎉我唯一知道的，便是我一无所知🎉✨🎉

学习目标：

了解大数据处理常见的场景链路
了解Spark技术栈，包括SparkCore中的RDD/调度/Shuffle/内存管理等概念机制，以及SQL在Spark引擎中执行的详细流程
了解目前业界主要遇到的挑战以及解决方案

一、Spark介绍

0名词解析

Spark生态组件：

Spark Core：Spark核心组件，它实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
Spark SQL：用来操作结构化数据的核心组件，通过Spark SQL可以直接查询Hive、HBase等多种外部数据源中的数据。
Spark Structured Streaming：Spark提供的流式计算框架，支持高吞吐量、可容错处理的实时流式数据处理。
MLlib：Spark提供的关于机器学习功能的算法程序库，包括分类、回归、聚类、协同过滤算法等，还提供了模型评估、数据导入等额外的功能。
GraphX：Spark提供的分布式图处理框架，拥有对图计算和图挖掘算法的API接口以及丰富的功能和运算符。
独立调度器、Yarn、Mesos、Kubernetes：Spark框架可以高效地在一个到数千个节点之间伸缩计算，集群管理器则主要负责各个节点的资源管理工作，为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器（Cluster Manager）上运行。

Spark 运行架构和工作原理：

Application（应用）：Spark上运行的应用。Application中包含了一个驱动器（Driver）进程和集群上的多个执行器（Executor）进程。
Driver Program（驱动器）：运行main()方法并创建SparkContext的进程。
Cluster Manager（集群管理器）：用于在集群上申请资源的外部服务（如：独立部署的集群管理器、Mesos或者Yarn）。
Worker Node（工作节点）：集群上运行应用程序代码的任意一个节点。
Executor（执行器）：在集群工作节点上为某个应用启动的工作进程，该进程负责运行计算任务，并为应用程序存储数据。
Task（任务）：执行器的工作单元。
Job（作业）：一个并行计算作业，由一组任务（Task）组成，并由Spark的行动（Action）算子（如：save、collect）触发启动。
Stage（阶段）：每个Job可以划分为更小的Task集合，每组任务被称为Stage。

Spark目前支持几个集群管理器：

Standalone ：Spark 附带的简单集群管理器，可以轻松设置集群。
Apache Mesos：通用集群管理器，也可以运行 Hadoop MapReduce 和服务应用程序。（已弃用）
Hadoop YARN： Hadoop 2 和 3 中的资源管理器。
Kubernetes：用于自动部署、扩展和管理容器化应用程序的开源系统。

目标：了解常见的大数据处理pipeline，了解spark技术栈，通过提交一个基本的Spark程序开始Spark学习之路

大数据处理技术栈
常见大数据处理链路

1 Spark初步认识：

官网

Spark官方网站主页：

在这里插入图片描述

1.1 版本演进

Spark近年来的版本演进趋势图如下所示：在这里插入图片描述

从图中可以看出大概的演进趋势

新版本对计算性能做出了更强的优化
稳定性：与用户和开源社区合作，部署在多种应用场景下，使其稳定性更强
易用性：继续完好spark的python/java API，同一时候使其安装部署更加方便
未来可能会结合机器学习算法推出相关AI+功能

1.2 生态特点
1.3 多语言支持（SQL，java/Scala，Python，R）
1.4内置丰富的数据源：
- Text
- Parquet/ORC
- Json/CSV
- JDBC
- 自定义DataSource：
  - 实现DataSourceV1/N2 API
  - HBase/Mongo/ElasticSearch/...
  - A community index of third-party packages for Apache Spark.
1.5丰富的API（算子）
1.6部署方式：

Spark Local Mode

Spark Standalone Mode

On YARN/K8S

2 初识Spark

1下载编译：
- 在Github上克隆Spark包，并在本地或服务器上进行编译，下载编译命令大概如下：
  - git clone -b master github.com/apache/spar…
  - cd spark
  - ./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Psparkr -Phive -Phive-thriftserver-Pmesos -Pvarn
  - 编译完后会在目录下生成一个tgz包
- 直接去官网下载Spark包
包概览:

在这里插入图片描述

2 搭建环境变量

在这里插入图片描述

运行示例：

Spark-shell
Spark-sql
pyspark（spark与python相结合，应用范围得以较大扩展）

编译成jar包之后,使用spark-submit提交
UI界面

在这里插入图片描述

性能查看器

在这里插入图片描述

3 Spark运行架构和工作原理

Spark应用在集群上运行时，包括了多个独立的进程，这些进程之间通过驱动程序（Driver Program）中的SparkContext对象进行协调，SparkContext对象能够与多种集群资源管理器（Cluster Manager）通信，一旦与集群资源管理器连接，Spark会为该应用在各个集群节点上申请执行器（Executor），用于执行计算任务和存储数据。Spark将应用程序代码发送给所申请到的执行器，SparkContext对象将分割出的任务（Task）发送给各个执行器去运行。

需要注意的是

每个Spark application都有其对应的多个executor进程。Executor进程在整个应用程序生命周期内，都保持运行状态，并以多线程方式执行任务。这样做的好处是，Executor进程可以隔离每个Spark应用。从调度角度来看，每个driver可以独立调度本应用程序的内部任务。从executor角度来看，不同Spark应用对应的任务将会在不同的JVM中运行。然而这样的架构也有缺点，多个Spark应用程序之间无法共享数据，除非把数据写到外部存储结构中。
Spark对底层的集群管理器一无所知，只要Spark能够申请到executor进程，能与之通信即可。这种实现方式可以使Spark比较容易的在多种集群管理器上运行，例如Mesos、Yarn、Kubernetes。
Driver Program在整个生命周期内必须监听并接受其对应的各个executor的连接请求，因此driver program必须能够被所有worker节点访问到。
因为集群上的任务是由driver来调度的，driver应该和worker节点距离近一些，最好在同一个本地局域网中，如果需要远程对集群发起请求，最好还是在driver节点上启动RPC服务响应这些远程请求，同时把driver本身放在离集群Worker节点比较近的机器上。

🌹写在最后💖：路漫漫其修远兮，吾将上下而求索！伙伴们，再见！🌹🌹🌹