大数据平台搭建

第一部分：Java搭建

1.Java上传jdk的包

可以使用工具MobaXterm或者在虚拟机本地拖拽上传虚拟机（得切换root超级用户）

2.删除原有的jdk防止后续Java包之间的冲突

yum -y remove java*

3.解压Java安装包

tar -zxvf jdk-8u112-linux-x64.tar.gz

4.添加环境变量

(在etc的目录下添加下面俩行！JAVA_HOME后面接的是自己本机解压jdk的路径)，接着保存退出（esc+shift+q输入wq回车退出）

vim /etc/profile

export JAVA_HOME=/opt/jdk1.8.0_191
export PATH=$PATH:$JAVA_HOME/bin

5.生效这个写入文件

source /etc/profile

6.认证是不是安装完成

java -version

没成功报错

第二部分：搭建三台主机并修改系统配置文件

完成上序部分，关机之前修改本机主机名(这样后续会简单一些)

vim vim /etc/hostname

把主机名修改成master（改完可以关机）

1.复制克隆虚拟机

下一步下一步前面都是默认的，到第三步可以选择第二个。

修改虚拟机名，添加路径（尽量把虚拟机的位置放到D盘）

然后第二个虚拟机也是上图操作，这样你就得到两个虚拟机（可能有些人的电脑带不动这三台虚拟机）

2.启动并修改虚拟机文件

！接下来的操作使用MobaXterm好操作

查看虚拟机的IP地址（记住是三台机，就是上述操作的三台虚拟机，看每一台的IP地址）

ip a s

192.168.60.128这个IP地址就是我们需要用到的

打开MobaXterm,左上角的会话，选择ssh链接，输入IP地址，指定用户名root，输入密码登陆。

点击这个功能（他会把三台虚拟机合并一块）

修改/etc/hosts,并添加IP地址跟本机名（这三台改成一样的）(保存退出)

vim /etc/hosts

修改本机名换成一开始给虚拟机命名的名字(保存退出)

改完之后要重新启动虚拟机

reboot

第三部分：配置hosts文件和ssh免密登录

1.重新启动之后，查看更改之后的虚拟机名改变没有(后续的操作都要三台一起操作)

hostname

2.生成密钥文件

ssh-keygen -t rsa

3.分发密钥链接每一台虚拟机

ssh-copy-id master

输入命令回车后要输入yes跟密码

第四部分：解压hadoop并配置文件

1.解压hadoop压缩包

tar -zxvf /opt/zhujian/hadoop-2.7.7.tar.gz

2.进入配置文件的主目录下

cd /opt/zhujian/hadoop-2.7.7/etc/hadoop/

3.修改/etc/hadoop core-site.xml

#tip:下图中乱码部分为注释代码，可以删掉，不影响
<configuration>
    <!--用于设置Hadoop的文件系统，由URI指定-->
    <property>
        <name>fs.defaultFS</name>
        <!--用于指定namenode地址在master机器上-->
        <value>hdfs://master:9000</value>
    </property>
    <!--配置Hadoop的临时目录，默认/tem/hadoop-${user.name}-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/zhujian/hadoop-2.7.7</value>
    </property>
</configuration>

4.修改hadoop-env.sh

export JAVA_HOME=/opt/zhujian/jdk1.8.0_122

5.修改hdfs-site.xml

<configuration>
    <!--secondary namenode 所在主机的IP和端口-->
                <property>
                        <name>dfs.namenode.secondary.http-address</name>
                        <value>master:50090</value>
                </property>
    <!--指定HDFS的数量-->
                <property>
                        <name>dfs.replication</name>
                        <value>3</value>
                </property>
    <!--工作目录-->
                <property>
                        <name>dfs.namenode.name.dir</name>
                        <value>file:/opt/zhujian/hadoop-2.7.7/tmp/dfs/name</value>
                </property>
                <property>
                        <name>dfs.datanode.data.dir</name>
                        <value>file:/opt/zhujian/hadoop-2.7.7/tmp/dfs/data</value>
                </property>
        </configuration>

6.修改mapred-site.xml

这个文件要复制模板出来

cp mapred-site.xml.template mapred-site.xml

修改文件mapred-site.xml

<configuration>
    <!--指定MapReduce运行时的框架，这里指定在YARN上，默认在local-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

7.修改yarn-site.xml文件

vim yarn-site.xml

<configuration>
    <!--指定YARN集群的管理者（ResourceManager）的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

8.修改slaves文件(添加三台虚拟机的主机名)

vim slaves

9.分发数据到第二台，第三台。

scp -r /opt/zhujian/hadoop-2.7.7 slaver1:/opt/zhujian/hadoop-2.7.7

scp -r /opt/zhujian/hadoop-2.7.7 slaver2:/opt/zhujian/hadoop-2.7.7

10.关闭防火墙

systemctl stop firewalld.service

11. 在主节点格式化文件系统（successfully formatted 格式化成功）

./bin/hdfs namenode -format

12.启动服务

sbin/start.dfs.sh

13.启动yarn服务

sbin/start.yarn.sh

14.查看节点(有四个节点就是完美成功)

jps

启动yarn服务

15.可以在虚拟机浏览器打开地址查看hadoop服务状态

http://master:50070

16.可以添加一个hadoop的环境变量这样轻松很多

vim /etc/prof

export HADOOP_HOME=/opt/zhujian/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

hadoop完全分布式