HDFS原理｜青训营笔记这是我参与「第四届青训营」笔记创作活动的第7天 HDFS 架构原理 HDFS的三大件分别是：

这是我参与「第四届青训营」笔记创作活动的第7天

HDFS

HDFS的三大件分别是： Client/SDK、NameNode、DataNode

一般集群中的DataNode要多于NameNode。

这里只讲述大致流程，内部具体的实现细节可以看我之前写的一篇笔记

写流程：

读流程：

NameNode的主要功能有：

DataNode的主要功能有：

fsimage：

文件系统的目录树，存放在内存中，定时会存放在硬盘上，修改目录树只会修改内存中的目录树。

EditLog：

目录树的修改日志，Client需要持久化EditLog后才能更新目录树，EditLog的存放位置灵活，可以是本地文件系统，也可以是专门的系统上，NameNode HA的一个关键点就是实现EditLog的共享。

数据块信息维护：

每个块id中都保存着目录树，而NameNode通过DataNode汇报的心跳动态维护位置信息，维护每个数据块所在节点的信息。但是NameNode并不会持久化存储位置信息。

数据放置策略：

数据一般存放在多个节点，在某个节点宕机时，数据在其他节点有备份，不至于丢失。

数据块硬盘存放：

NameNode将数据划分为一个个的块，而DataNode存放数据的单位就是块。

启动扫描盘：

DataNode需要知道本机器存放了哪些数据块，所以启动时会把本机硬盘上的数据块列表加载到内存中。