Windows安装Hadoop(图文解说版)

323 阅读3分钟

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是 MapReduce 引擎,YARN负责 资源调度系统。

HDFS 的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。

而这里引用网上一张图

60151dce95aa417f8c6de7751252f01a~tplv-k3u1fbpfcp-zoom-in-crop-mark_1512_0_0_0

前置条件:Windows安装Java环境(OracleJDK)

第一步,下载安装包

dlcdn.apache.org/hadoop/comm…

选择对应的版本的tar.gz的版本

image-20241117141838342

下载解压下来,解压之后就是这样式的:我们先记住这个文件夹的路径:D:\hadoop-3.3.6

image-20241117142309147

第二步,下载bin

github.com/cdarlint/wi…

把整个项目clone下来,就会有一个文件夹

image-20241117142356565

而我们找到我们下载版本对应的版本,例如hadoop-3.3.6,把里面的bin文件夹全部copy覆盖bin到我们第一步解压的文件夹中

image-20241117142517189

第三步,配置环境变量

HADOOP_HOME 对应的值填上面我们记下的安装路径

image-20241117142611067

path里面填 %HADOOP_HOME%\bin

image-20241117142705070

第四步,配置文件

在配置文件之前我们看一下上面做的有没有完成,在cmd下运行 hadoop version 看看情况

image-20241117142848267

出现这样的信息,则说明环境变量配置成功,就可以进入下一步操作了,我们首先在D:\hadoop-3.3.6创建一个data文件夹,然后在data文件夹下面创建三个文件夹,分别是 datanode、namenode、tmp

core-site.xml

这个文件在 D:\hadoop-3.3.6\etc\hadoop下面,core-site.xml 文件是 Hadoop 配置文件之一,用于配置 Hadoop 的核心参数。这些参数定义了 Hadoop 集群的基本行为和特性,包括文件系统的默认配置、网络设置、安全设置等。

写入以下内容:

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/D:/hadoop-3.3.6/data/tmp</value>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

注意 /开头中间用 /隔开 ,使用 Windows 系统,路径格式应该是 /D:/hadoop-3.3.6/data/tmp,而不是 D:\hadoop-3.3.6\data\tmp

  1. hadoop.tmp.dir:指定 Hadoop 临时文件的存储目录。
  2. fs.defaultFS:指定 Hadoop 默认的文件系统 URI。

mapred-site.xml

<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
    <property>
       <name>mapred.job.tracker</name>
       <value>hdfs://localhost:9000</value>
    </property>
</configuration>

mapred-site.xml用于设置 MapReduce 框架的具体参数。

  1. mapreduce.framework.name:确保 MapReduce 任务由 YARN 资源管理器调度和管理。
  2. mapred.job.tracker:指定 JobTracker 的地址

yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hahoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

yarn-site.xml 是 用于设置 YARN资源管理器的具体参数。

  1. yarn.nodemanager.aux-services:确保 MapReduce 框架可以使用 YARN 的 Shuffle 服务。
  2. yarn.nodemanager.aux-services.mapreduce.shuffle.class:确保 Shuffle 服务由 ShuffleHandler 类处理,这是 MapReduce 框架所需的。

hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/D:/hadoop-3.3.6/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/D:/hadoop-3.3.6/data/datanode</value>
    </property>
</configuration>

hdfs-site.xml 是 Hadoop 用于设置 HDFS的具体参数。

hadoop-env.sh

配置java环境变量

export JAVA_HOME=D:\env\java\jdk8

这里和你本地的的JAVA环境变量一样

第五步,启动服务

注意我们执行的路径,而且一定一定一定要用管理员模式的cmd运行!!

hdfs namenode -format

image-20241117160312568

start-all.cmd

image-20241117160339494

这时候会弹出四个弹窗,不要关闭!

第六步,打开web服务

如果我们前面五步全部做完之后,就可以打开我们的web页面查看hadoop相关的信息了(注意,不要开任何的代理,负责里面的功能会出现访问失败的情况):

概览页面:http://localhost:9870/

image-20241117144830640

任务页面: http://localhost:8088/

image-20241117144845388

第七步,关闭服务

运行 stop-all.cmd脚本或者关闭四个窗口即可

image-20241117145501456

至此我们的hadoop在Windows上面就安装好了,那么具体的使用我们这里就不做详细介绍了。后面作者会出Hadoop的相关教程,欢迎大家关注一波