大数据平台搭建
第一部分:Java搭建
1.Java上传jdk的包
可以使用工具MobaXterm或者在虚拟机本地拖拽上传虚拟机(得切换root超级用户)
2.删除原有的jdk防止后续Java包之间的冲突
yum -y remove java*
3.解压Java安装包
tar -zxvf jdk-8u112-linux-x64.tar.gz
4.添加环境变量
(在etc的目录下添加下面俩行!JAVA_HOME后面接的是自己本机解压jdk的路径),接着保存退出(esc+shift+q输入wq回车退出)
vim /etc/profile
export JAVA_HOME=/opt/jdk1.8.0_191
export PATH=$PATH:$JAVA_HOME/bin
5.生效这个写入文件
source /etc/profile
6.认证是不是安装完成
java -version
没成功报错
第二部分:搭建三台主机并修改系统配置文件
完成上序部分,关机之前修改本机主机名(这样后续会简单一些)
vim vim /etc/hostname
把主机名修改成master(改完可以关机)
1.复制克隆虚拟机
下一步下一步前面都是默认的,到第三步可以选择第二个。
修改虚拟机名,添加路径(尽量把虚拟机的位置放到D盘)
然后第二个虚拟机也是上图操作,这样你就得到两个虚拟机(可能有些人的电脑带不动这三台虚拟机)
2.启动并修改虚拟机文件
!接下来的操作使用MobaXterm好操作
查看虚拟机的IP地址(记住是三台机,就是上述操作的三台虚拟机,看每一台的IP地址)
ip a s
192.168.60.128这个IP地址就是我们需要用到的
打开MobaXterm,左上角的会话,选择ssh链接,输入IP地址,指定用户名root,输入密码登陆。
点击这个功能(他会把三台虚拟机合并一块)
修改/etc/hosts,并添加IP地址跟本机名(这三台改成一样的)(保存退出)
vim /etc/hosts
修改本机名换成一开始给虚拟机命名的名字(保存退出)
改完之后要重新启动虚拟机
reboot
第三部分:配置hosts文件和ssh免密登录
1.重新启动之后,查看更改之后的虚拟机名改变没有(后续的操作都要三台一起操作)
hostname
2.生成密钥文件
ssh-keygen -t rsa
3.分发密钥链接每一台虚拟机
ssh-copy-id master
输入命令回车后要输入yes跟密码
第四部分:解压hadoop并配置文件
1.解压hadoop压缩包
tar -zxvf /opt/zhujian/hadoop-2.7.7.tar.gz
2.进入配置文件的主目录下
cd /opt/zhujian/hadoop-2.7.7/etc/hadoop/
3.修改/etc/hadoop core-site.xml
#tip:下图中乱码部分为注释代码,可以删掉,不影响
<configuration>
<!--用于设置Hadoop的文件系统,由URI指定-->
<property>
<name>fs.defaultFS</name>
<!--用于指定namenode地址在master机器上-->
<value>hdfs://master:9000</value>
</property>
<!--配置Hadoop的临时目录,默认/tem/hadoop-${user.name}-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/zhujian/hadoop-2.7.7</value>
</property>
</configuration>
4.修改hadoop-env.sh
export JAVA_HOME=/opt/zhujian/jdk1.8.0_122
5.修改hdfs-site.xml
<configuration>
<!--secondary namenode 所在主机的IP和端口-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:50090</value>
</property>
<!--指定HDFS的数量-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--工作目录-->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/zhujian/hadoop-2.7.7/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/zhujian/hadoop-2.7.7/tmp/dfs/data</value>
</property>
</configuration>
6.修改mapred-site.xml
这个文件要复制模板出来
cp mapred-site.xml.template mapred-site.xml
修改文件mapred-site.xml
<configuration>
<!--指定MapReduce运行时的框架,这里指定在YARN上,默认在local-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
7.修改yarn-site.xml文件
vim yarn-site.xml
<configuration>
<!--指定YARN集群的管理者(ResourceManager)的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
8.修改slaves文件(添加三台虚拟机的主机名)
vim slaves
9.分发数据到第二台,第三台。
scp -r /opt/zhujian/hadoop-2.7.7 slaver1:/opt/zhujian/hadoop-2.7.7
scp -r /opt/zhujian/hadoop-2.7.7 slaver2:/opt/zhujian/hadoop-2.7.7
10.关闭防火墙
systemctl stop firewalld.service
11. 在主节点格式化文件系统(successfully formatted 格式化成功)
./bin/hdfs namenode -format
12.启动服务
sbin/start.dfs.sh
13.启动yarn服务
sbin/start.yarn.sh
14.查看节点(有四个节点就是完美成功)
jps
启动yarn服务
15.可以在虚拟机浏览器打开地址查看hadoop服务状态
http://master:50070
16.可以添加一个hadoop的环境变量这样轻松很多
vim /etc/prof
export HADOOP_HOME=/opt/zhujian/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin