HDFS高可用和高扩展机制分析 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第9天一个“可以用”的系统和“

这是我参与「第四届青训营」笔记创作活动的第9天

一个“可以用”的系统和“好用”的系统，差距就是“高可用”和“高可扩展性”

1.元数据高可用

主备系统：基于日志、自动切换、实时热备

服务高可用的需求

高可用的衡量

服务可用性指标
- MTTR（mean time to recover）：发现一次故障，需要多久去恢复
- MTTF（mean time to failure）：平均一次故障要花费多久的时间
- MTBF（mean time between failure）：两次故障的时间，过短说明系统不够稳定

可用性的年化

高可用的形式

服务高可用
- 热备份：有一个相同的服务在跑着，如果旧的服务出现故障，可以立刻切到新的服务上，立马接管
- 冷备份：将服务中的关键数据（如：HDFS的整个部署）的备份在其他设备上进行重启，不如热备份：需要一个重启的时间
故障恢复操作
- 人工切换
- 自动切换
人工的反应、决策时间都更长，高可用需要让系统自动决策
HDFS的设计中，采用了中心化的元数据管理节点NameNode
NameNode容易成为故障中的单点（single point of failure）

HDFS NameNode高可用架构

理论基础-状态机复制和日志

NameNode操作日志的生产消费

NameNode块状态维护

分布式协调组件-ZooKeeper