安装
说明
apache 官方并没有直接提供 windows 版本的 hadoop,但作为开源软件,apache 提供了 hadoop 的源码,因此想在 windows 系统安装 hadoop 需要下载源码自己编译!
由于 windows 安装 hadoop 是个基本需求,官方不提供自有他人提供。winutils 是 github 上开源的项目,提供编译好的hadoop的windows版本二进制文件供大家下载,
我们想在 windows 上安装 hadoop 只需要3步
- 下载 winutils
- 下载对应版本的二进制 hadoop
- 用 winutils 中的文件 覆盖 hadoop
下载 winutils
下载地址:github.com/steveloughr…
截止这篇文章发布为止,hadoop 最新的 windows 编译版是 3.0.0
下载 hadoop
下载页面 :hadoop.apache.org/releases.ht…
如果下载页面中没有列出你想要的版本,可以再下载页面的路径上追加版本号,例如 hadoop.apache.org/release/3.0…
版本选择与 winutils 相同的版本,选择 Download tar.gz
覆盖安装
winutils 解压完成后,会有一个 hadoop-3.0.0 的文件夹,里面只有一个 bin 目录,用此 bin 目录去覆盖 hadoop-3.0.0.tar 包中的 hadoop-3.0.0\bin 目录
配置
安装完成后,我们来进行配置,首先进入 hadoop-3.0.0\etc\hadoop\ 目录下
配置 core-site.xml
配置默认hdfs的访问端口。
<configuration>
<property>
<!-- hdfs的访问端口 -->
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
配置 hdfs-site.xml
配置 namenode文件路径、datanode数据路径、复制数
<configuration>
<property>
<!-- 配制复制数为1,即不进行复制 -->
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<!-- namenode 文件路径 -->
<name>dfs.namenode.name.dir</name>
<value>file:/hadoop/data/dfs/namenode</value>
</property>
<property>
<!-- datanode 文件路径 -->
<name>dfs.datanode.data.dir</name>
<value>file:/hadoop/data/dfs/datanode</value>
</property>
</configuration>
配置 mapred-site.xml.template
将mapred-site.xml.template 名称修改为 mapred-site.xml 后再修改内容
设置mr使用的框架,这里使用yarn
<configuration>
<property>
<!-- 设置 mr 使用的框架为 yarn -->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置 yarn-site.xml
设置 yarn 使用 mr 混洗
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>
配置 hadoop-env.cmd
设置JAVA_HOME的值
默认配置是
set JAVA_HOME=%JAVA_HOME% ,如果这里的 %JAVA_HOME% 使用了带空格的Program Files路径将会报错!
解决办法是用 Program Files 的缩写 Progra~1 进行替换
set JAVA_HOME=C:\Progra~1\Java\jdk1.8.0_251
格式化 hdfs
进入 hadoop-3.0.0\bin 目录,在 cmd 中运行命令
hdfs namenode -format
使用
启动 hadoop
进入 hadoop-3.0.0\sbin 目录,在 cmd 中运行命令
C:\it\hadoop\hadoop-3.0.0\sbin\start-all.cmd
如果出现找不到 hadoop 文件的错误时,可以在 start-all.cmd 文件中加入如下命令
cd C:\it\hadoop\hadoop-3.0.0\bin
查看集群状态
在浏览器地址栏中输入: http://localhost:8088
查看Hadoop状态
在浏览器地址栏中输入: http://localhost:50070
关闭Hadoop
C:\it\hadoop\hadoop-3.0.0\sbin\stop-all.cmd
问题
yarn node manager 启动报错
相关 issues issues.apache.org/jira/browse…