windows 安装、配置 hadoop 3.x

2,029 阅读2分钟

安装

说明

apache 官方并没有直接提供 windows 版本的 hadoop,但作为开源软件,apache 提供了 hadoop 的源码,因此想在 windows 系统安装 hadoop 需要下载源码自己编译!

由于 windows 安装 hadoop 是个基本需求,官方不提供自有他人提供。winutils 是 github 上开源的项目,提供编译好的hadoop的windows版本二进制文件供大家下载,

我们想在 windows 上安装 hadoop 只需要3步

  1. 下载 winutils
  2. 下载对应版本的二进制 hadoop
  3. 用 winutils 中的文件 覆盖 hadoop

下载 winutils

下载地址:github.com/steveloughr… 截止这篇文章发布为止,hadoop 最新的 windows 编译版是 3.0.0

下载 hadoop

下载页面 :hadoop.apache.org/releases.ht…

如果下载页面中没有列出你想要的版本,可以再下载页面的路径上追加版本号,例如 hadoop.apache.org/release/3.0…

版本选择与 winutils 相同的版本,选择 Download tar.gz

覆盖安装

winutils 解压完成后,会有一个 hadoop-3.0.0 的文件夹,里面只有一个 bin 目录,用此 bin 目录去覆盖 hadoop-3.0.0.tar 包中的 hadoop-3.0.0\bin 目录

配置

安装完成后,我们来进行配置,首先进入 hadoop-3.0.0\etc\hadoop\ 目录下

配置 core-site.xml

配置默认hdfs的访问端口。

<configuration>
    <property>
		<!-- hdfs的访问端口 -->
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

配置 hdfs-site.xml

配置 namenode文件路径、datanode数据路径、复制数

<configuration>
    <property>
        <!-- 配制复制数为1,即不进行复制 -->
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <!-- namenode 文件路径 -->
        <name>dfs.namenode.name.dir</name>    
        <value>file:/hadoop/data/dfs/namenode</value>    
    </property>    
    <property>
        <!-- datanode 文件路径 -->
        <name>dfs.datanode.data.dir</name>    
        <value>file:/hadoop/data/dfs/datanode</value>  
    </property>
</configuration>

配置 mapred-site.xml.template

将mapred-site.xml.template 名称修改为 mapred-site.xml 后再修改内容

设置mr使用的框架,这里使用yarn

<configuration>
    <property>
        <!-- 设置 mr 使用的框架为 yarn -->
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置 yarn-site.xml

设置 yarn 使用 mr 混洗

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

配置 hadoop-env.cmd

设置JAVA_HOME的值 默认配置是 set JAVA_HOME=%JAVA_HOME% ,如果这里的 %JAVA_HOME% 使用了带空格的Program Files路径将会报错!

解决办法是用 Program Files 的缩写 Progra~1 进行替换

set JAVA_HOME=C:\Progra~1\Java\jdk1.8.0_251

格式化 hdfs

进入 hadoop-3.0.0\bin 目录,在 cmd 中运行命令

hdfs namenode -format

使用

启动 hadoop

进入 hadoop-3.0.0\sbin 目录,在 cmd 中运行命令

C:\it\hadoop\hadoop-3.0.0\sbin\start-all.cmd

如果出现找不到 hadoop 文件的错误时,可以在 start-all.cmd 文件中加入如下命令

cd C:\it\hadoop\hadoop-3.0.0\bin

查看集群状态

在浏览器地址栏中输入: http://localhost:8088

查看Hadoop状态

在浏览器地址栏中输入: http://localhost:50070

关闭Hadoop

C:\it\hadoop\hadoop-3.0.0\sbin\stop-all.cmd

问题

yarn node manager 启动报错

相关 issues issues.apache.org/jira/browse…