1、添加环境变量
vi /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_221
export PATH=$PATH:$JAVA_HOME/bin
export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
2、使环境变量立即生效
source /etc/profile
三、配置Spark参数
1、配置slaves/workers
cd /usr/local/spark/conf
2、修改配置文件名称
mv slaves.template slaves
3、编辑slaves文件
vim slaves
slave1
slave2
4、修改配置文件名称
mv spark-env.sh.template spark-env.sh
5、编辑配置文件
vim spark-env.sh
## 设置JAVA安装目录
JAVA_HOME=/usr/local/jdk1.8.0_221
## HADOOP软件配置文件目录,读取HDFS上文件和运行Spark在YARN集群时需要,先提前配上
HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
YARN_CONF_DIR=/usr/local/hadoop/etc/hadoop
## 指定spark老大Master的IP和提交任务的通信端口
SPARK_MASTER_HOST=master
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g
6、集群分发
scp -r /usr/local/spark/ slave1:/usr/local/
scp -r /usr/local/spark/ slave2:/usr/local/
四、环境测试
1、启动Spark集群
sbin/start-all.sh
2、jps查看进程
注:前置Hadoop集群已经启动
3、查看WebUI
注:此时状态为活跃状态
五、提交任务
1、启动spark-shell
2、提交WordCount任务
A、创建wordcount.txt文件
vim wordcount.txt
B、上传文件到 hdfs 方便 worker 读取
hadoop fs -put /input/wordcount.txt /input/wordcount.txt
C、hdfs 查看
D、提交任务
val textFile = sc.textFile("hdfs://master:8020/input/wordcount.txt")
val counts = textFile.flatMap(.split(" ")).map((,1)).reduceByKey(_ + _)
counts.collect
counts.saveAsTextFile("hdfs://master:8020/output/output1")
六、结果查看
master:50070