spark-standalone模式一、Spark-Standalone 模式的特点独立运行 Spark-Standa

独立运行
- Spark-Standalone 模式是 Spark 自带的集群管理方式，不需要依赖其他外部资源管理器。它通过自身的调度机制来管理集群资源和任务执行。
- 适合在小型集群或测试环境中快速部署和运行 Spark 应用程序。
主从架构
- Spark-Standalone 模式采用主从架构，由一个 Master 节点 和多个 Worker 节点 组成。
- Master 节点 负责管理集群资源、调度任务、监控 Worker 节点的健康状态等。
- Worker 节点 负责运行实际的任务（Task），并将其资源（如 CPU 和内存）分配给 Spark 应用程序。
容错机制
- 如果某个 Worker 节点失败，Master 节点会重新分配任务到其他可用的 Worker 节点上。
- Master 节点也可以配置为高可用模式（HA），通过设置多个 Master 节点，其中一个作为主 Master，其他作为备用 Master，当主 Master 失败时，备用 Master 会接管集群的管理。

安装 Spark
- 首先需要在集群的各个节点上安装 Spark。可以从 Apache Spark 官方网站下载预编译的二进制包，或者从源码编译安装。
- 将 Spark 安装到相同路径（如 /opt/spark）。
配置 Master 节点
- 编辑 conf/spark-defaults.conf 文件，设置以下参数：
  
  复制
```
spark.master=spark://master:7077
spark.executor.memory=2g
spark.executor.cores=2
```
  其中，spark.master 指定 Master 节点的地址和端口（默认为 7077）。
- 启动 Master 节点：
  
  bash
  
  复制
```
./sbin/start-master.sh
```
  启动后，可以通过访问 http://master:8080 查看 Master 的 Web UI。
配置 Worker 节点
- 在每个 Worker 节点上，同样编辑 conf/spark-defaults.conf 文件，设置：
  
  spark.master=spark://master:7077
- 启动 Worker 节点：
  
  bash
  
  复制
```
./sbin/start-slave.sh spark://master:7077
```
  Worker 节点会自动注册到 Master 节点，并等待任务分配。
提交 Spark 应用程序
- 在提交 Spark 应用程序时，需要指定 Master 的地址：
  
  bash
  
  复制
```
./bin/spark-submit --class com.example.MySparkApp --master spark://master:7077 my-spark-app.jar
```
  其中，--master 参数指定为 Standalone 模式的 Master 地址。

优点
- 简单易用：部署和配置相对简单，不需要依赖复杂的外部资源管理器。
- 快速启动：适合在小型集群或测试环境中快速运行 Spark 应用程序。
- 独立性：不依赖于其他资源管理器，可以独立运行。
缺点
- 资源管理能力有限：在大规模集群中，资源管理能力不如 YARN 或 Mesos 等成熟的资源管理器。
- 调度效率较低：调度算法相对简单，可能无法充分利用集群资源。
- 功能有限：没有像 YARN 那样的高级功能（如多租户支持、细粒度资源管理等）。

Spark-Standalone 模式是一种简单高效的集群运行模式，适合特定场景下的使用。如果需要更强大的资源管理和调度功能，可以考虑使用 YARN 或 Mesos 等资源管理器。