大数据 hadoop

45 阅读4分钟

创建虚拟机CentOs7操作系统,作为大数据集群的master节点

(1) 修改网卡配置文件

#vi /etc/sysconfig/network-scripts/ifcfg-ens33     注意:不同版本Linux中ifcfg-ens33文件名不同

文件中

BOOTPROTO=dhcp 修改=>BOOTPROTO=static

ONBOOT=no 修改==》 ONBOOT=yes

7990bfbb177df3ef89bc8b3686b38c8.png

(2) 重启网路

#systemctl restart network

(3)查看IP地址

#ip a

b831fb29de6b2cab42b58f8de431620.png

(4) 用终端工具crt 或者xshell 进行连接

(5) 配置本地yum源(如果可以连接外网此步骤可以省略)

  1. 进入本地yum源的目录 #cd /etc/yum.repos.d/
  2. 查看目录下文件 #ll
  3. 要配置的本地yum源 CentOS-Media.repo
  4. 将本地yum源文件以外的文件重命名 #mv CentOS-Base.repo CentOS-Base.repo.bak
  5. 执行命令 #vi CentOS-Media.repo

图片1.png

  1. 挂载 #mount /dev/sr0 /media
  2. 更新yum源

(6) 安装及配置JDK

  1. 通过CRT的secureFX把JDK压缩包上传到/opt/目录下面
  2. 创建目录 #mkdir /usr/jdk64
  3. 解压安装JDK #tar -zxvf /opt/jdk-8u231-linux-x64.tar.gz -C /usr/jdk64
  4. 配置环境变量:
vi /etc/profile 
export JAVA_HOME=/usr/jdk64/jdk1.8.0_231
export PATH=$JAVA_HOME/bin:$PATH

5. 重新加载profile文件 #source /etc/profile 6. 验证jdk版本 #java -version

(7)安装及配置Hadoop(2.8.5)

  1. 通过CRT的secureFX把JDK压缩包上传到/opt/目录下面
  2. 将hadoop解压安装在/usr/local #tar -zxvf /opt/hadoop-2.8.5.tar.gz -C /usr/local
  3. 修改配置文件 #cd /usr/local/hadoop-2.8.5/etc/hadoop

core-site.xml hadoop的核心文件

    Hadoop的HDFS系统的命名,位置为主机的8020端口
    
    配置Haddop临时文件的位置
    
    在文件的<configuration>中添加以下代码

    ``` config
    <property>
        <name>fs.defaultFS</name>  
        <value>hdfs://master:8020</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/log/hadoop/tmp</value>
    </property>
    ```

hadoop-env.sh hadoop运行基本环境的配置

在文件中修改或注释掉原有的export JAVA_HOME=  修改或添加 export JAVA_HOME=/usr/jdk64/jdk1.8.0_231  

yarn-env.sh

    文件是YARN框架运行环境的配置

    在文件中修改或注释掉原有的export JAVA_HOME=  修改或添加 export JAVA_HOME=/usr/jdk64/jdk1.8.0_231  

mapred-site.xml 是MapReduce的相关配置

    在hadoop目录下不存在mapred-site.xml

    1、复制 文件 #cp mapred-site.xml.template mapred-site.xml
    
    2、在文件的<configuration>中添加以下代码

    ```
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>

    ```

yarn-site.xml YARN框架的配置

hdfs-site.xml HDFS的相关配置

slaves 该文件保存有slave节点的信息 注:两个节点

删除文件中localhost
添加 slave1 slave2

hosts /etc/hosts

添加下面内容

192.168.60.111 master master.centos.com
192.168.60.112 slave1 slave1.centos.com
192.168.60.113 slave2 slave2.centos.com

修改主机名

hostnamectl set-hostname master
bash

创建子节点

备注: 两个子节点操作完全相同

(1)克隆master节点,取名slave1

(2)修改网卡配置文件

#vi /etc/sysconfig/network-scripts/ifcfg-ens33     

注意:不同版本Linux中ifcfg-ens33文件名不同

删除或者修改UUID最后一个字符,改成不一致即可

(3)重启网络

(4)查看IP地址

#ip a

图片2.png

(5)连接CRT 修改主机名

#hostnamectl set-hostname slave1
#bash

配置SSH免密码登录

(1)使用ssh-keygen产生公钥与私钥对

输入#ssh-keygen -t rsa,连续按三次enter键

生成私有秘钥id_rsa和公有密钥id_rsa.pub两个文件

(2)用ssh-copy-id将公钥复制到远程机器中

#ssh-copy-id -i /root/.ssh/id_rsa.pub master #ssh-copy-id -i /root/.ssh/id_rsa.pub slave1 #ssh-copy-id -i /root/.ssh/id_rsa.pub slave2

注:若通过ssh slave1进行验证是否能够无密钥登录时,验证完成用exit退出

配置时间同步服务

NTP是用来使计算机时间同步化的一种协议

(1)在master节点安装NTP服务

注:ntp安装失败,尝试重新挂载 mount /dev/sr0 /media

注:若要卸载ntp服务命令为yum erase ntp

#yum install ntp -y

(2) 设置master节点为NTP服务主节点

修改ntp.conf文件

#vi /etc/ntp.conf 四行server内容注释掉

图片3.png

添加

server 127.127.1.0

fudge 127.127.1.0 stratum 10

(3)启动ntp服务

#systemctl start ntpd  启动ntp服务
#systemctl enable ntpd 开机自动启动ntp服务
#systemctl stop firewalld 关闭防火墙

(4)在slave1、slave2节点分别按照ntpdate

#yum install ntpdate -y 若安装失败,尝试重新挂载
#ntpdate master 同步master节点时间 注:出现no server….........错误是,关闭master节点的防火墙
#systemctl enable ntpdate 把ntpdate加入随机启动

*****同步到网络时间: ntpdate pool.ntp.org

master节点配置Hadoop环境变量

(1)#vi /etc/profile 修改内容

图片4.png

添加一行:export HADOOP_HOME=/usr/local/hadoop-2.8.5

修改PATH:export PATH=JAVAHOME/bin:JAVA_HOME/bin:HADOOP_HOME/bin:$PATH

(2)重新加载profile文件

source /etc/profile

格式化HDFS文件系统

#hdfs namenode  -format

启动集群

#cd /usr/local/hadoop-2.8.5/ 进入Hadoop安装目录 #sbin/start-dfs.sh 启动HDFS相关服务 #sbin/start-yarn.sh 启动YARN相关服务 #sbin/mr-jobhistory-daemon.sh start historyserver 启动日志相关服务

同jps命令查看是否启动成功

HDFS监控

关闭集群

hbase安装

hive安装