hadoop系列（4）---HDFS稳定性支持「这是我参与11月更文挑战的第4天，活动详情查看：2021最后一次更文挑战

「这是我参与11月更文挑战的第4天，活动详情查看：2021最后一次更文挑战」

心跳机制和重新复制

每个 DataNode 定期向 NameNode 发送心跳消息，如果超过指定时间没有收到心跳消息，则将 DataNode 标记为死亡。NameNode 不会将任何新的 IO 请求转发给标记为死亡的 DataNode，也不会再使用这些 DataNode 上的数据。由于数据不再可用，可能会导致某些块的复制因子小于其指定值，NameNode 会跟踪这些块，并在必要的时候进行重新复制。

Hadoop-NameNode&DataNode &HeartBeat.jpg

数据的完整性

由于存储设备故障等原因，存储在 DataNode 上的数据块也会发生损坏。为了避免读取到已经损坏的数据而导致错误，HDFS 提供了数据完整性校验机制来保证数据的完整性，具体操作如下：

当客户端创建 HDFS 文件时，它会计算文件的每个块的 校验和，并将 校验和 存储在同一 HDFS 命名空间下的单独的隐藏文件中。当客户端检索文件内容时，它会验证从每个 DataNode 接收的数据是否与存储在关联校验和文件中的 校验和 匹配。如果匹配失败，则证明数据已经损坏，此时客户端会选择从其他 DataNode 获取该块的其他可用副本。

元数据的磁盘故障&元数据的持久化&快照

FsImage 和 EditLog 是 HDFS 的核心数据，这些数据的意外丢失可能会导致整个 HDFS 服务不可用。为了避免这个问题，可以配置 NameNode 使其支持 FsImage 和 EditLog 多副本同步，这样 FsImage 或 EditLog的任何改变都会引起每个副本 FsImage 和 EditLog的同步更新。

SecondaryNameNode（SNN） 在非HA模式,SNN一般是独立的节点，周期性完成对NN的EditLog向FsImage合并，减少EditLog大小，减少NN启动时间根据配置文件设置的时间间隔fs.checkpoint.period 默认3600秒根据配置文件设置Editlog大小 fs.checkpoint.size 规定edits文件的最大值默认是64MB

快照

支持在特定时刻存储数据副本，在数据意外损坏时，可以通过回滚操作恢复到健康的数据状态。

SecondaryNameNode&EditLog&FsImage.jpg