基本介绍

Hadoop分布式文件系统(HDFS)是适合运行在通用硬件(commodity hardware)上的分布式文件系统。
HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

架构原理

HDFS组件

Client写流程

写datanode是pipeline写。

Client读流程

元数据节点NameNode

维护目录树：维护目录树的增删改查操作，保证所有修改都能持久化，以便机器掉电不会造成数据丢失或不一致。
维护文件和数据块的关系：文件被切分成多个块，文件以数据块为单位进行多副本存放
维护文件块存放节点信息：通过接收DataNode的心跳汇报信息，维护集群节点的拓扑结构和每个文件块所有副本所在的DataNode类表。
分配新文件存放节点：client创建新文件时候，需要有NameNode来确定分配目标DataNode。

数据节点DataNode

数据块存取：DataNode需要高效实现对数据块在硬盘上的存取
心跳汇报：把存放在本机的数据块列表发送给NameNode，以便NameNode能维护数据块的位置信息，同时让NameNode确定该节点处于正常存活状态
副本复制：
- 数据写入时 pipeline IO 操作
- 机器故障时补全副本

关键设计

NameNode目录树维护

fsimage

文件系统目录树
完整存放在内存中
定时存放到硬盘上
修改是只会修改内存中的目录树

EditLog

目录树的修改日志
client更新日志树需要持久化EditLog后才能表示更新成功
EditLog可存放在本地文件系统，也可存放在专用系统上
NameNode HA 方案一个关键点就是如何实现EditLog共享

NameNode数据放置

数据块信息维护

目录树保存每个文件的块id
NameNode维护了每个数据块所在的节点信息
NameNode根据DataNode汇报的信息动态维护位置信息
NameNode不会持久化数据块位置信息

数据放置策略

新数据存放哪些节点
数据均衡需要怎么合理搬迁数据
3个副本怎么合理放置

DataNode

数据块的硬盘存放

文件在NameNode已分割成block
DataNode以block为单位对数据进行存取

启动扫盘

DataNode需要知道本机存放了哪些数据块
启动时把本机硬盘上的数据块列表加载在内存中

HDFS写异常处理：Lease Recovery

情景：文件写了一半，客户端挂了，可能产生的问题：

副本不一致（比如3个节点没到ack阶段，还在写），导致读不一致
lease无法释放

租约：client要修改一个文件时，需要通过 NameNode 上锁，这个锁就是租约 (lease)。

解决方法：Lease Recovery

比较系统中3个副本的长度，如果不一样就取最小的，返回给NameNode作为最终写入结果
设置超时时间

HDFS写异常处理：Pipeline Recovery

情景：文件写入时，DataNode出现异常挂了

出现时机：

创建连接 (第3步)
数据传输
complete阶段（flush了还没complete）

解决方法：Pipeline Recovery

重新选一个 DataNode
pipeline 重新构建，把坏的节点摘出去
pipeline重新构建，重新写节点

读异常处理

情景：读取文件过程，DataNode出现异常挂了

解决方法：节点Failover（这个慢到另一个节点读），关键在于如何检测节点的快慢

增强情景：节点半死不活，读取很慢

旁路系统

Balencer

数据放置的不平衡，需要各个DataNode的数据平衡

Mover

确保副本放置符合策略要求

HDFS原理与实践