HDFS原理与应用 | 青训营笔记

用户5285361086085

2022-08-02 126 阅读3分钟

HDFS原理与应用 | 青训营笔记

这是我参与「第四届青训营」笔记创作活动的第4天

一、HDFS概述

HDFS即Hadoop分布式文件系统（Hadoop Distributed Filesystem），以流式数据访问模式来存储超大文件，它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。

二、HDFS基本架构原理

HDFS 采用Master/Slave的架构来存储数据，这种架构主要由四个部分组成，分别为HDFS Client、NameNode、NameNode、DataNode和Secondary NameNode。一个HDFS集群是由一个NameNode和一定数目的DataNode组成的。NameNode是一个中心服务器，负责管理文件系统的名字空间 (Namespace )及客户端对文件的访问。集群中的DataNode一般是一个节点运行一个DataNode进程，负责管理它所在节点上的存储。

三、HDFS的核心组件

NameNode

NameNode是HDFS的核心模块，也是HDFS架构的master。NomeNode一点宕机则整个HDFS服务不可用。NameNode仅仅存储HDFS的元数据：文件系统中的文件目录结构，并且能跟踪整个集群中的文件。NameNode不存储实际的文件数据，实际数据是存储在DataNode中，他存储的是文件分块的基础数据；能通过文件获取文件的快列表及其分布在哪些dataNode上。NameNode并不会将文件的分块数据持久化存储，这些信息会在HDFS启动时由各个dataNode上报过来。他把这些数据存入内存中。并且会定时对内存中的数据进行快照。所以对于NameNode节点的机器内存应该大一些。NameNode在hadoop 2.0版本之前是单点的，Hadoop 2.0版本才提出了高可用 (High Availability, HA) 解决方案，并且经过多个版本的迭代更新，已经广泛应用于生产环境。

DataNode

DataNode是HDFS的Slave节点，存储文件实际的数据，负责将数据落入磁盘。所以DataNode节点需要较大的磁盘。DataNode在启动时会将自己发布到NameNode上，并上报自己持有的数据块表。定期向NameNode发送心跳，如果NameNode长时间没有接受到DataNode发送的心跳，NameNode就会认为该DataNode以及失效，将其剔除集群。心跳参数dfs.heartbeat.interval=3（默认3秒发送一次心跳）当某个DateNode宕机后，不会影响数据和集群的可用性。NameNode会安排其他DataNode进行副本复制接管他的工作。DataNode会定时上报自己负责的数据块列表。

Secondary NameNode

SecondaryNameNode有两个作用，一是镜像备份，二是日志与镜像的定期合并。两个过程同时进行，称为checkpoint. 镜像备份的作用:备份fsimage(fsimage是元数据发送检查点时写入文件);日志与镜像的定期合并的作用:将Namenode中edits日志和fsimage合并,防止如果Namenode节点故障，namenode下次启动的时候，会把fsimage加载到内存中，应用edit log,edit log往往很大，导致操作往往很耗时。

（待补充）