今天是2022年2月21日,论文初稿提交截止日,很遗憾没写完。评价:内容工作量太少。看来接下来的一段时间要开始爆肝了。顺便总结记录下需要的东西,希望可以坚持。
前言
做大数据开发,无论是离线还是实时,都离不开Hadoop的集群环境。平时在工作中,公司有专门的人来运维,开发只需要打包代码或者脚本,有集成平台来部署启动,虽然省事,但是基本的大数据环境还是必须了解熟悉的。当下网络上有很多Hadoop搭建的集群教程,看来看去总有些问题,踩了些坑,参考写下,聊胜于无。
软件与安装包准备
1.CentOS-7-x86_64-DVD-2009.iso
2.VmVare 14.x
3.jdk-8u321-linux-x64.rpm
4.hadoop-2.10.1.tar.gz
主机名、IP地址、主从服务配置
hadoop:
node1 192.168.88.129 DN NN RM NM
node2 192.168.88.130 DN
node3 192.168.88.131 DN SN
yarn:
node1 192.168.88.129 RM NM
node2 192.168.88.130 NM
node3 192.168.88.131 NM
CentOS安装
1.vm安装步骤正常选择,可以去掉不必要的硬件,网络选择一定要是NAT,可以在操作页面修改为手动分配,配置网关等也可以后续在安装完成的Linux系统里修改.推荐添加用户名,不要使用root账号.
2.Linux安装成功后,可以选择性安装常用的工具
sudo yum install net-tools
sudo yum install vim
3.关闭防火墙
sudo systemctl stop firewalld.service
sudo systemctl disable firewalld.service
4.在用户目录下,创建soft目录,拷贝jdk的rpm包和hadoop的tar包
sudo rpm -ivh jdk-8u321-linux-x64.rpm
sudo tar -zxvf hadoop-2.10.1.tar.gz -C /opt/
5.配置环境变量
sudo vim /etc/profile.d/hadoop.sh
->export HADOOP_HOME=/opt/hadoop-2.10.1
->export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
6.改变hadoop文件权限
cd /opt
sudo chown -R huser:huser /opt/hadoop-2.10.1
7.创建HDFS的NN和DN工作主目录
sudo mkdir /var/big_data
sudo chown -R huser:huser /var/big_data
8.hadoop 配置
vim hadoop-env.sh
export JAVA_HOME=/usr/java/default
vim yarn-env.sh
export JAVA_HOME=/usr/java/default vim core-site.xml
9.vm完整克隆 10.host修改(重点),ip地址修改,主机名修改
sudo vim /etc/hosts
192.168.88.129 node1 192.168.88.130 node2 192.168.88.131 node3
11.免密登录
ssh-keygen -t rsa
ssh-copy-id node01
ssh-copy-id node02
ssh-copy-id node03
12.格式化hdfs(不要重复格式化,否则会导致DN个别无法启动,或者删除NNDN的工作目录)
hdfs namenode -format
13.启动Hadoop集群和yarn集群
start-dfs.sh
start-yarn.sh
huser@node1 bin]$ jps
27328 DataNode
25094 Jps
27162 NameNode
28619 NodeManager
28494 ResourceManager
huser@node2 bin]$ jps
5878 DataNode
68905 Jps
6153 NodeManager
huser@node3 bin]$ jps
7217 NodeManager
77495 Jps
6957 SecondaryNameNode
6846 DataNode
14.监控页