Hadoop安装与配置 | 8月更文挑战

188 阅读1分钟

这是我参与8月更文挑战的第1天,活动详情查看:8月更文挑战

Hadoop是Java编写的开源的大数据框架, 提供可靠的,可伸缩的分布式计算, 现在由Apache托管。

Hadoop的官网: hadoop.apache.org/

Hadoop的下载页面:hadoop.apache.org/releases.ht…

image.png

现在最新的版本是3.3.1

安装配置流程

1. 上传与解压

下载后,上传到Linux服务器,通过

tar -xvf hadoop-3.3.1.tar.gz 解压文件

2. 修改JAVA_HOME配置

修改安装目录下的etc/hadoop/hadoop-env. sh

找到export JAVA_HOME=$JAVA_HOME这一行,把注释去掉。

3. 修改配置文件etc/hadoop/core-site.xml

在标签下增加:


<property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9090</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/software/hadoop/tmp</value>
</property>


这里如果不配置的话,fs.defaultFS不配置的话,Hadoop就是单机版

4、配置etc/hadoop/hdfs-site.xml

在标签下增加:

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

这里是hdfs的文件备份数,当磁盘出错时,文件可以恢复

5、ssh免登录

在默认目录下,执行下面的命令

  $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  $ chmod 0600 ~/.ssh/authorized_keys

使用ssh localhost, 如果没有提示需要输入用户密码,则配置成功

启动hadoop

在启动之前,先要格式化namenode

bin/hdfs namenode -format

没有格式化的话,namenode是无法启动的。

进入Hadoop的安装目录,输入 sbin/start-all.sh 启动hadoop的所有服务。

测试Hadoop的Map Reduce功能

Hadoop里面带了一下例子可以对Hadoop进行测试。

  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar grep input output 'dfs[a-z.]+'

运行完了,output会生成分析的结果

可以在浏览器上输入http://localhost:9870, 进入hadoop的页面管理

image.png

image.png

image.png