HDFS原理|青训营笔记

HDFS：

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。

上述即为百度百科给出的HDFS的定义，可以看出其是一个分布式文件系统，接下来将会详细解释HDFS的原理和结构

HDFS架构

QQ截图20220819170302.png
此处需要介绍具体的组件信息：

而在上述四个组件中，DataNode和NameNode是其两大核心。

QQ截图20220819170927.png

业务应用调用HDFS Client提供的API，请求写入文件。
HDFS Client联系NameNode，NameNode在元数据中创建文件节点。
业务应用调用write API写入文件。
HDFS Client收到业务数据后，从NameNode获取到数据块编号、位置信息后，联系DataNode，并将需要写入数据的DataNode建立起流水线。完成后，客户端再通过自有协议写入数据到DataNode1，再由DataNode1复制到DataNode2, DataNode3。
写完的数据，将返回确认信息给HDFS Client。
所有数据确认完成后，业务调用HDFS Client关闭文件。
业务调用close, flush后HDFSClient联系NameNode，确认数据写完成，NameNode持久化元数据。

QQ截图20220819171216.png

此次为针对HDFS原理的个人理解和分享，如果错误还请指出，谢谢