HDFS 原理与应用 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的的第 3 天 1. HDFS 基本介绍 W

这是我参与「第四届青训营」笔记创作活动的的第 3 天

1. HDFS 基本介绍

Windows 文件系统：NTFS

Linux 文件系统：BTRFS、ZFS、XFS、EXT4

分布式文件系统：大容量（更多的机器，更多的存储介质）、高可靠（多个副本提高容错能力）、低成本（不需要高端硬件来扩容）

数据块存取：DataNode 需要高效实现对数据块在硬盘上的存取。
心跳汇报：把存放在本机的数据块发送给 NameNode，以便 NameNode 能维护数据块的位置信息，同时让 NameNode 确定该节点处于正常存活状态。
副本复制：数据写入时 Pipeline IO 操作；机器故障时补全副本。

fsimage
- 文件系统目录树
- 完整的存放在内存
- 定时存放到硬盘上
- 修改时指挥修改内存中的目录树
EditLog
- 目录树的修改日志
- client 更新目录树需要持久化 EditLog 后才能表示更新成功
- EditLog 可存放在本地文件系统，也可存放在专用系统上
- NameNode HA 方案一贯关键点就是如何实现 EditLog 共享

数据快信息维护
- 目录树保存了每个文件的块 id
- NameNode 维护了每个数据块所在的节点信息
- NameNode 根据 DataNode 汇报的信息动态维护位置信息
- NameNode 不会持久化数据块位置信息
数据块放置策略
- 新数据存放到哪个写节点
- 数据均衡需要怎么合理搬迁数据
- 3 个副本怎么合理放置

情景：文件写了一半，client 自己挂掉了。可能产生的问题：

租约：Client 要修改一个文件，需要通过 NameNode 上锁，这个所就是租约（Lease）

解决办法：Lease Recovery

情景：文件写入过程中，DataNode 侧出现异常挂掉了。

异常出现的时机：

解决办法：Pipeline Recovery

情景：读取文件的过程，DataNode 侧出现异常挂掉了

解决办法：节点 Failover

增强情景：节点半死不过，读取很慢

Balancer：均衡 DataNode 的容量

Mover：确保副本放置符合策略要求

可观测性设施：

运维体系建设