spark伪分布式集群搭建

448 阅读2分钟

1.设置共享文件夹

虚拟机-设置-选项-共享文件夹-添加共享文件夹 请添加图片描述

2.下载相关文件

2.1 进入share目录查看

请添加图片描述请添加图片描述

2.2 下载相应文件压缩包到共享文件夹内

请添加图片描述 请添加图片描述

3.环境配置

3.1 解压文件

在/usr/目录下创建java 目录:

mkdir -p /usr/java

解压包:

tar -zxvf jdk-8u241-linux-x64.tar.gz	###解压jdk
tar -zxvf hadoop-3.2.2.tar.gz			###解压hadoop
tar -zxvf spark-3.2.0-bin-hadoop3.2.taz ###解压spark

请添加图片描述 将解压后得文件移动到java目录下:

mv jdk1.8.0_241/ /usr/java/
mv hadoop-3.2.2/ /usr/java/
mv spark-3.2.0/ /usr/java/

请添加图片描述

3.2 java环境安装配置

export JAVA_HOME=/usr/java/jdk1.8.0_241
export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar
export PATH=$PATH:${JAVA_HOME}/bin

请添加图片描述

3.3 Hadoop环境安装配置

export HADOOP_HOME=/home/tools/hadoop-3.2.2
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath --glob):$CLASSPATH

请添加图片描述

3.4 Spark环境安装配置

export SPARK_HOME="/home/tools/spark-3.2.0-bin-hadoop3.2"
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH 
export MASTER=spark://192.168.101.104:7077

请添加图片描述

4.集群设置

4.1 集群配置

export SPARK_WORKER_INSTANCES=3
export CORES_PER_WORKER=1
export TOTAL_CORES=$((${CORES_PER_WORKER}*${SPARK_WORKER_INSTANCES}))
export PYTHONPATH=${SPARK_HOME}/python:${SPARK_HOME}/python/lib/py4j-0.10.7-src.zip
alias stop_all="stop-slave.sh;stop-master.sh"
alias start_all="start-master.sh;start-slave.sh -c $CORES_PER_WORKER -m 4G ${MASTER}"

#SPARK_WORKER_INSTANCES表示节点数目

请添加图片描述

4.2 设置环境生效

进入~/.zshrc添加source ~/.cshrc请添加图片描述

source ~/.zshrc

请添加图片描述

4.3使用start_all启动节点

start_all

请添加图片描述

4.4 jps查看节点情况

jps

请添加图片描述

5.验证是否成功

8080是sparkwebUI的端口号,可以通过spark的配置文件修改

ip:8080		### ip+端口号

请添加图片描述

6.附录(spark端口号)

8080:sparkwebUI的端口号

50070:HDFSwebUI的端口号

8485:journalnode默认的端口号

9000:非高可用访问数rpc端口

8020:高可用访问数据rpc

8088:yarn的webUI的端口号

8080:master的webUI,Tomcat的端口号

7077:spark基于standalone的提交任务的端口号

8081:worker的webUI的端口号

18080:historyServer的webUI的端口号

4040:application的webUI的端口号

2181:zookeeper的rpc端口号

9083:hive的metastore的端口号

60010:Hbase的webUI的端口号

6379:Redis的端口号

ebUI的端口号

18080:historyServer的webUI的端口号

4040:application的webUI的端口号

2181:zookeeper的rpc端口号

9083:hive的metastore的端口号

60010:Hbase的webUI的端口号

6379:Redis的端口号

9092:kafka broker的端口