九、Hadoop伪分布式的搭建详情

114 阅读6分钟

伪分布式:并不是真正的分布式,是将多台机器的任务放到一台机器上运行而已

一.安装前的准备工作

(1)安装JDK

        右键单击centos桌面,在弹出的快捷菜单中选择“open in Terminal”命令,打开终端,切换路径到安装包所在路径,进入软件包所在文件夹,并通过“ls”命令查看文件夹中的所有软件,如图1-25所示。

                                                 图1-25  查看文件夹中的所有软件

Hadoop是使用Java编写的,所以需要安装Java环境。在softwares目录中执行命令“sudo tar -zxvf jdk-8u221-linux-x64.tar.gz -C /home”,解压Java的TAR包,如图1-26所示。

sudo tar -zxvf jdk-8u221-linux-x64.tar.gz -C /home

                                                图1-26  解压Java的TAR包

解压之后,需要配置环境变量,执行命令“sudo vim  /etc/profile”,修改配置文件,如图1-27所示。

sudo vim  /etc/profile

                                                图1-27  修改配置文件(1)

要使新配置的环境变量生效,需要执行命令“source /etc/profile”,如图1-28所示。

source /etc/profile

                                                图1-28  使新配置的环境变量生效(1)

(2)关闭防火墙

查看防火墙状态,如图1-29

systemctl status firewalld.service

                                                图 1-29 第一次查看防火墙状态

关闭防火墙,如图1-30

​systemctl stop firewalld.service

                                                图 1-30 关闭防火墙

并且让其不开机自启,如图1-31

systemctl disable firewalld.service

                                                图 1-31 让防火墙不开机自启

再次查看防火墙状态,如图1-32

systemctl status firewalld.service

图 1-32 第二次查看防火墙

(3)安装SSH,并配置SSH免密登录

SSH为Secure Shell的缩写,由IETF的网络小组所制定。SSH为建立在应用层基础上的安全协议,专为远程登录会话和其他网络服务提供安全性的协议。利用SSH协议可以有效地防止远程管理过程中的信息泄露问题。

执行命令 ‘ssh-keygen -t rsa’ 并且四下回车,生成密钥对,如图1-33所示。

ssh-keygen -t rsa

                                                         图1-33  生成密钥对

生成密钥后,执行命令“ssh-copy-id localhost”,把本地的ssh公钥文件安装到远程主机对应的账户下,如图1-34所示。

ssh-copy-id localhost

                                                        图1-34  实现SSH免密登录

并进入生成的root/.ssh查看生成的文件,如图1-35所示。

                                                        图1-35 查看.ssh文件

执行命令“ssh-copy-id localhost”,验证SSH免密登录localhost成功,如图1-36所示。

localhost为其他客户机的ip地址或主机名

ssh-copy-id localhost

                                                        图1-36  验证配置是否生效

(4)安装Hadoop 2.6.0

首先,在Downloads目录中执行命令“sudo tar -zxvf hadoop-2.6.0.tar.gz -
C /home”,对Hadoop进行解压,如图1-37所示。

sudo tar -zxvf hadoop-2.6.0.tar.gz -C /home

                                                        图1-37  对Hadoop进行解压

其次,解压之后,需要配置环境变量,执行命令“sudo vim  /etc/profile”,修改配置文件,如图1-38所示。

sudo vim  /etc/profile

                                                        图1-38 修改配置文件(2)

最后,要使新配置的环境变量生效,需要执行命令“source /etc/profile”,如图1-39所示。

source /etc/profile

                                                图1-39  使新配置的环境变量生效(2)

二.伪分布式模式的安装与配置

注:以下配置文件的修改不会给出代码段,只给出图片,配置文件的代码需要动手打,也需要熟记,不能依赖网上的代码复制粘贴,应该去试着理解代码的含义。

(1)Hadoop配置之修改jdk路径

hadoop的配置文件全在hadoop根目录/etc/hadoop 这个目录下

我们需要在hadoop-env.sh和yarn-env.sh俩个文件中配置jdk的路径,配置结束后,按“:wq”键,保存并退出。如图1-41、1-42

图 1-41 配置hadoop-env.sh

图 1-42 配置yarn-env.sh

(2)Hadoop配置之修改core-site.xml文件

在当前目录中,执行命令“vim core-site.xml”,并切换到编辑模式,配置core-site.xml文件,如图1-43所示,配置结束后,按“:wq”键,保存并退出。

                                                图1-43  配置core-site.xml文件

(3)Hadoop配置之修改hdfs-site.xml文件

在当前目录中,执行命令“vim hdfs-site.xml”,并切换到编辑模式,配置hdfs-site.xml文件,如图1-44所示,配置结束后,按“:wq”键,保存并退出。

                                                图1-44  配置hdfs-site.xml文件

(4)Hadoop配置之修改mapred-site.xml文件(重命名加修改)

在当前目录中,执行命令“vim mapred-site.xml”,如果没有mapred-site.xml文件,可以将mapred-site.xml.template重命名,如图1-45。

图 1-45 将mapred-site.xml.template重命名

                                                图1-46  配置mapred-site.xml文件

(5)Hadoop配置之修改yarn-site.xml文件

在当前目录中,执行命令“vim yarn-site.xml”,并切换到编辑模式,配置yarn-site.xml文件,如图1-47所示,配置结束后,按“:wq”键,保存并退出。

                                                图1-47  配置yarn-site.xml文件

(6)格式化HDFS

切换到Hadoop的安装目录,执行命令“./bin/hdfs namenode -format”,格式化节点,如图1-48所示。

./bin/hdfs namenode -format

                                                图1-48  格式化节点

如果在返回的信息中看到“Exiting with status 0”,则表示执行格式化成功。图 1-49

图 1-49 格式化成功的标志

(7)验证测试

在当前目录中,执行命令“start-all.sh”,启动节点,如图1-50所示。

这里建议start-dfs.sh\start-yarn.sh两条命令启动(新版命令的要求)

                                                        图1-50  启动节点

执行命令“jps”,查看当前进程是否正常启动,如图1-51所示。

                                                图1-51 查看当前进程是否正常启动

(8)web浏览器测试

测试HDFS和YARN,在浏览器地址栏中输入“http://localhost:50070”,进入HDFS信息界面,表明HDFS配置准确。如图1-52所示。

                                                        图1-52  HDFS信息界面

在浏览器地址栏中输入“http://ip:8088”,打开Web控制台,可以查看集群状态,如果DataNode中没有配置yarn-site.xml,则在网页中无法看到节点信息;如果配置了yarn-site.xml,则在网页中将会看到节点配置信息,如图1-53所示。

                                                                图1-53 节点配置信息

至此,说明Hadoop伪分布式模式的安装与配置成功完成。

其他环境搭建可以参考我的其他博客(链接):

Hadoop完全分布式的搭建详情

Zookeeper选举机制

Zookeeper集群的搭建(单机、伪分布式、集群)

Spark的安装与部署详情(Local模式,Standalone模式,Spank on YARN模式)

HadoopHA工作机制(高可用)

HadoopHA环境搭建(保姆篇,手把手搭建)