Hadoop环境，集群搭建、启动脚本

1. Hadoop的安装

将JDK安装包和Hadoop安装包放到/opt/software目录下

解压文件至/opt/module目录下

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

进行环境变量的配置

sudo vim /etc/profile.d/my_env.sh

在文件中添加以下语句

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

运行以下语句使环境变量生效

source /etc/profile

测试hadoop是否安装成功

hadoop version

2. Hadoop集群搭建——文件同步，免密登录

搭建方式采用完全分布式模式

2.1 同步集群内所有主机的jdk和hadoop文件

使用rsync命令分发同步文件，基本语法如下：

rsync -av $pdir/$fname $user@$host:$pdir/$fname

操作如下：

rsync -av hadoop-3.1.3/ user@hadoop103:/opt/module/hadoop-3.1.3/

按该操作完成对jdk和hadoop文件的复制

以该命令为基础，编写集群分发脚本，编写路径为/home/user/bin

在/home/user/bin目录下编写文件，输入以下内容：

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)
                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

修改脚本使脚本具有执行权限

chmod +x xsync

添加到全局使用

sudo cp xsync /bin/

脚本测试

xsync /home/user/bin

使用该脚本同步集群内所有主机

sudo xsync /etc/profile.d/my_env.sh

在其他主机上让环境变量生效

source /etc/profile

2.2 SSH无密登录配置

进入/home/user/.ssh目录

执行命令生成公钥和私钥

ssh-keygen -t rsa

连续敲3个回车会生成id_rsa（私钥）、id_rsa.pub（公钥）

将公钥和私钥拷贝到其他主机上

ssh-copy-id hadoop102
ssh-copy-id hadoop103
ssh-copy-id hadoop104

每台机器做相同操作

3. Hadoop集群配置

注意：

NameNode和SecondaryNameNode不要安装在同一台服务器
ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

以下为集群部署规划

	hadoop102	hadoop103	hadoop104
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

默认配置文件：

要获取的默认文件	文件存放在Hadoop的jar包中的位置
[core-default.xml]	hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml]	hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml]	hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml]	hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

自定义配置文件

core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml

四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

3.1 核心配置文件

配置core-site.xml，使用以下内容进行配置

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>

    <!-- 配置HDFS网页登录使用的静态用户为user -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>user</value>
    </property>
</configuration>

3.2 HDFS配置文件

配置hdfs-site.xml，使用以下内容进行配置

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- nn web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop102:9870</value>
    </property>
	<!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>
</configuration>

3.3 YARN配置文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>				     
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

3.4 MapReduce配置文件

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

3.5 配置workers

在/opt/module/hadoop-3.1.3/etc/hadoop/workers中添加以下内容：

hadoop102
hadoop103
hadoop104

注意：

该文件中添加的内容结尾不允许有空格，文件中不允许有空行

3.6 分发所设置的配置文件

使用2.1所编辑的文件同步分发脚本进行配置文件分发

xsync /opt/module/hadoop-3.1.3/etc/hadoop/

4. 群起集群

第一次启动需要进行格式化操作，以下操作在/opt/modules/hadoop-3.1.3/目录下进行

hdfs namenode -format

进行该操作后会生成data和logs文件夹，说明格式化成功

在配置了NameNode的hadoop102上启动HDFS

sbin/start-dfs.sh

在配置了ResourceManager的hadoop103上启动YARN

sbin/start-yarn.sh

Web端查看HDFS的NameNode
- 浏览器中输入：http://hadoop102:9870
- 查看HDFS上存储的数据信息
Web端查看YARN的ResourceManager
- 浏览器中输入：http://hadoop103:8088
- 查看YARN上运行的Job信息

5. 配置历史服务器

5.1 开启历史服务器

在hadoop102下进行配置，配置文件为mapred-site.xml

在该文件下添加以下内容：

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

分发配置

xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

在hadoop102启动历史服务器

mapred --daemon start historyserver

查看服务是否启动

jps

查看历史服务器的Web端

http://hadoop102:19888/jobhistory

5.2 开启日志聚集功能

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

注意：

开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

配置yarn-site.xml文件，在文件中添加以下内容

<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

分发配置

xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

重启整个集群

6. 编写Hadoop常用脚本——启动/关闭集群

6.1 编写Hadoop集群启停脚本

在/home/user/bin目录下新建文件myhadoop.sh

输入以下内容：

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

赋予脚本执行权限

chmod +x myhadoop.sh

6.2 编写查看服务器Java进程脚本

在/home/user/bin目录下新建文件jpsall

输入以下内容

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done