Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS 的上一层是 MapReduce 引擎,YARN负责 资源调度系统。
HDFS 的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。
而这里引用网上一张图
前置条件:Windows安装Java环境(OracleJDK)
第一步,下载安装包
选择对应的版本的tar.gz的版本
下载解压下来,解压之后就是这样式的:我们先记住这个文件夹的路径:D:\hadoop-3.3.6
第二步,下载bin
把整个项目clone下来,就会有一个文件夹
而我们找到我们下载版本对应的版本,例如hadoop-3.3.6,把里面的bin文件夹全部copy覆盖bin到我们第一步解压的文件夹中
第三步,配置环境变量
HADOOP_HOME 对应的值填上面我们记下的安装路径
path里面填 %HADOOP_HOME%\bin
第四步,配置文件
在配置文件之前我们看一下上面做的有没有完成,在cmd下运行 hadoop version
看看情况
出现这样的信息,则说明环境变量配置成功,就可以进入下一步操作了,我们首先在D:\hadoop-3.3.6
创建一个data文件夹,然后在data文件夹下面创建三个文件夹,分别是 datanode、namenode、tmp
core-site.xml
这个文件在 D:\hadoop-3.3.6\etc\hadoop
下面,core-site.xml
文件是 Hadoop 配置文件之一,用于配置 Hadoop 的核心参数。这些参数定义了 Hadoop 集群的基本行为和特性,包括文件系统的默认配置、网络设置、安全设置等。
写入以下内容:
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/D:/hadoop-3.3.6/data/tmp</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
注意 /
开头中间用 /
隔开 ,使用 Windows 系统,路径格式应该是 /D:/hadoop-3.3.6/data/tmp
,而不是 D:\hadoop-3.3.6\data\tmp
。
hadoop.tmp.dir
:指定 Hadoop 临时文件的存储目录。fs.defaultFS
:指定 Hadoop 默认的文件系统 URI。
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
mapred-site.xml
用于设置 MapReduce 框架的具体参数。
mapreduce.framework.name
:确保 MapReduce 任务由 YARN 资源管理器调度和管理。mapred.job.tracker
:指定 JobTracker 的地址
yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hahoop.mapred.ShuffleHandler</value>
</property>
</configuration>
yarn-site.xml
是 用于设置 YARN资源管理器的具体参数。
yarn.nodemanager.aux-services
:确保 MapReduce 框架可以使用 YARN 的 Shuffle 服务。yarn.nodemanager.aux-services.mapreduce.shuffle.class
:确保 Shuffle 服务由ShuffleHandler
类处理,这是 MapReduce 框架所需的。
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/D:/hadoop-3.3.6/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/D:/hadoop-3.3.6/data/datanode</value>
</property>
</configuration>
hdfs-site.xml
是 Hadoop 用于设置 HDFS的具体参数。
hadoop-env.sh
配置java环境变量
export JAVA_HOME=D:\env\java\jdk8
这里和你本地的的JAVA环境变量一样
第五步,启动服务
注意我们执行的路径,而且一定一定一定要用管理员模式的cmd运行!!
hdfs namenode -format
start-all.cmd
这时候会弹出四个弹窗,不要关闭!
第六步,打开web服务
如果我们前面五步全部做完之后,就可以打开我们的web页面查看hadoop相关的信息了(注意,不要开任何的代理,负责里面的功能会出现访问失败的情况):
任务页面: http://localhost:8088/
第七步,关闭服务
运行 stop-all.cmd
脚本或者关闭四个窗口即可
至此我们的hadoop在Windows上面就安装好了,那么具体的使用我们这里就不做详细介绍了。后面作者会出Hadoop的相关教程,欢迎大家关注一波