HDFS 原理|青训营笔记

2022-08-14 92 阅读2分钟

这是我参与【第四届青训营-大数据场】笔记创作活动的第9天

元数据节点 NameNode

维护目录树
维护目录树的增删改查操作，保证所有修改都能持久化，以便机器掉电不会造成数据丢失或不一致。
维护文件和数据块的关系
文件被切分成多个块，文件以数据块为单位进行多副本存放
维护文件块存放节点信息
通过接收DataNode的心跳汇报信息，维护集群节点的拓扑结构和每个文件块所有副本所在的DataNode类表。
分配新文件存放节点
Client创建新的文件时候，需要有
NameNode来确定分配目标DataNode

数据节点 DataNode

数据块存取
DataNode需要高效实现对数据块在硬盘上的存取
心跳汇报
把存放在本机的数据块列表发送给NameNode，以便 NameNode能维护数据块的位置信息，同时让 NameNode确定该节点处于正常存活状态
副本复制

数据写入时 Pipeline 1O操作 2.机器故障时补全副本

fsimage

文件系统目录树
完整的存放在内存中
定时存放到硬盘上
修改是只会修改内存中的目录树

EditLog

目录树的修改日志
client更新目录树需要持久化EditLog后才能表示更新成功 EditLog可存放在本地文件系统，也可存放在专用系统上 NameNode HA方案一个关键点就是如何实现EditLog共享

NameNode 数据放置

数据块信息维护
目录树保存每个文件的块id
NameNode维护了每个数据块所在的节点信息
NameNode根据DataNode汇报的信息动态维护位置信息
NameNode不会持久化数据块位置信息
数据放置策略
新数据存放到哪写节点
数据均衡需要怎么合理搬迁数据
3个副本怎么合理放置

DataNode

数据块的硬盘存放
文件在NameNode已分割成block
DataNode以block为单位对数据进行存取