六十二、Spark-Standlone独立集群(上传HDFS进行测试)

45 阅读2分钟

        1、添加环境变量


vi /etc/profile


export JAVA_HOME=/usr/local/jdk1.8.0_221

export PATH=$PATH:$JAVA_HOME/bin



export SCALA_HOME=/usr/local/scala

export PATH=$PATH:$SCALA_HOME/bin



export SPARK_HOME=/usr/local/spark

export PATH=$PATH:$SPARK_HOME/bin



export HADOOP_HOME=/usr/local/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin



        2、使环境变量立即生效


source /etc/profile

三、配置Spark参数

        1、配置slaves/workers


cd /usr/local/spark/conf

        2、修改配置文件名称


mv slaves.template slaves

        3、编辑slaves文件


vim slaves


slave1

slave2

        4、修改配置文件名称


mv spark-env.sh.template spark-env.sh

        5、编辑配置文件


vim spark-env.sh


## 设置JAVA安装目录

JAVA_HOME=/usr/local/jdk1.8.0_221



## HADOOP软件配置文件目录,读取HDFS上文件和运行Spark在YARN集群时需要,先提前配上

HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

YARN_CONF_DIR=/usr/local/hadoop/etc/hadoop



## 指定spark老大Master的IP和提交任务的通信端口

SPARK_MASTER_HOST=master

SPARK_MASTER_PORT=7077



SPARK_MASTER_WEBUI_PORT=8080



SPARK_WORKER_CORES=1

SPARK_WORKER_MEMORY=1g

        6、集群分发


scp -r /usr/local/spark/ slave1:/usr/local/




scp -r /usr/local/spark/ slave2:/usr/local/



四、环境测试

        1、启动Spark集群


sbin/start-all.sh

        2、jps查看进程

        注:前置Hadoop集群已经启动 

        3、查看WebUI

        注:此时状态为活跃状态 

五、提交任务

        1、启动spark-shell

        2、提交WordCount任务

A、创建wordcount.txt文件

vim wordcount.txt

B、上传文件到 hdfs 方便 worker 读取

hadoop fs -put /input/wordcount.txt /input/wordcount.txt

C、hdfs 查看

D、提交任务

val textFile = sc.textFile("hdfs://master:8020/input/wordcount.txt")

val counts = textFile.flatMap(.split(" ")).map((,1)).reduceByKey(_ + _)

counts.collect

counts.saveAsTextFile("hdfs://master:8020/output/output1")

六、结果查看

master:50070