一、Local 模式

所谓的Local模式，就是不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等。
由于 local 模式几乎没有人使用，这里不过多介绍。

二、Standalone 模式

独立部署（Standalone）模式。Spark自带的模式，在多台节点上部署Spark，可以将独立的节点构成集群，大大提升运行效率。

需要提前创建（至少）两台虚拟机或云服务器，这里以三台为例。

集群规划：

	hadoop102	hadoop103	hadoop104
Spark	master	worker	worker

将 spark 安装文件上传到其中一台节点，并解压缩文件：

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz.tgz
cd spark-3.0.0-bin-hadoop3.2.tgz

由于是多台节点构成的集群，需要提前将节点信息告知Spark，进入 conf 目录
- 重命名配置文件
```
mv slaves.template slaves
```
- 修改 salves 文件，将所有的hostname加入
```
hadoop102
hadoop103
hadoop104
```
- 修改spark-env.sh.template文件名为spark-env.sh
```
mv spark-env.sh.template spark-env.sh
```
- 修改spark-env.sh文件，添加 JAVA_HOME 环境变量和集群对应的master节点（需要提前安装JDK）
```
export JAVA_HOME=/opt/module/jdk1.8.0_144
SPARK_MASTER_HOST=hadoop102
SPARK_MASTER_PORT=7077
```
MASTER_HOST 是指集群规划中的 master 节点。
7077 是内部通信端口
- 重复上述步骤，将其它两台节点也安装上 spark
- 启动集群
```
sbin/start-all.sh
```
出现如图所示即为成功：

安装成功后可以使用 spark 自带的 jar 包进行测试：计算 PI 的值
将如下代码复制粘贴即可（注意master节点的值需要手动修改）
```
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar
```

三、Yarn 模式

独立部署（Standalone）模式由Spark自身提供计算资源，无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性，独立性非常强。但是，Spark主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱一些。所以接下来我们来学习在强大的Yarn环境下Spark是如何工作的（其实是因为在国内工作中，Yarn使用的非常多）。

需要注意的是，由于Spark主要是计算框架，资源调度依赖于Yarn，因此只需要在 1 台节点上安装spark即可。

安装 Hadoop 完全分布式集群；

修改 yarn-site.xml 文件

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>

<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

修改conf/spark-env.sh，添加 JAVA_HOME 和 YARN_CONF_DIR 配置

export JAVA_HOME=/opt/module/jdk1.8.0_144
YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop

启动 Hadoop 集群，将计算PI 的测试案例执行即可。
为了方便后续能观察到作业的执行，这里再配置一下历史服务器
- 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf
```
mv spark-defaults.conf.template spark-defaults.conf
```
- 修改spark-default.conf文件，配置日志存储路径
```
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop102:8020/directory
```
注意：需要启动hadoop集群，HDFS上的目录需要提前存在。
```
[root@linux1 hadoop]# sbin/start-dfs.sh
[root@linux1 hadoop]# hadoop fs -mkdir /directory
```
- 修改spark-env.sh文件, 添加日志配置
```
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory
-Dspark.history.retainedApplications=30"
```
参数1含义：WEB UI访问的端口号为18080
参数2含义：指定历史服务器日志存储路径
参数3含义：指定保存 Application 历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。
- 修改spark-defaults.conf
```
spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080
```
- 将以上所有关于 Hadoop 修改的配置文件全部同步到其它节点
- 启动历史服务
```
sbin/start-history-server.sh
```
- 重新启动 Hadoop 集群
- 测试
```
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
./examples/jars/spark-examples_2.12-3.0.0.jar
```

四、K8S & Mesos 模式

Mesos是Apache下的开源分布式资源管理框架，它被称为是分布式系统的内核,在Twitter得到广泛使用,管理着Twitter超过30,0000台服务器上的应用部署，但是在国内，依然使用着传统的Hadoop大数据框架，所以国内使用Mesos框架的并不多，但是原理其实都差不多，这里我们就不做过多讲解了。

容器化部署是目前业界很流行的一项技术，基于Docker镜像运行能够让用户更加方便地对应用进行管理和运维。容器管理工具中最为流行的就是Kubernetes（k8s），而Spark也支持了k8s部署模式。这里不做过多的讲解。给个链接大家自己感受一下：spark.apache.org/docs/latest…

总结

三种部署模式对比：

模式	Spark安装机器数	需启动的进程	所属者	应用场景
Local	1	无	Spark	测试、学习
Standalone	3	Master及Worker	Spark	单独部署
Yarn	1	Yarn及HDFS	Hadoop	混合部署

涉及的端口号：

Spark查看当前Spark-shell运行任务情况端口号：4040（计算）

Spark Master内部通信服务端口号：7077

Standalone模式下，Spark Master Web端口号：8080（资源）

Spark历史服务器端口号：18080

Hadoop YARN任务运行情况查看端口号：8088

03-Spark运行环境

一、Local 模式

二、Standalone 模式

三、Yarn 模式

四、K8S & Mesos 模式

总结