HDFS原理和应用 | 青训营笔记

66 阅读1分钟

这是我参与「第四届青训营 」笔记创作活动的第5天


本节课程目录:

  1. HDFS基础介绍
  2. HDFS架构原理和关键设计
  3. 其他设计

1. HDFS基础介绍

分布式文件系统的特点 image.png

HDFS特性
image.png


2. 架构原理

HDFS组件 image.png Client写流程
image.png Client读流程
image.png


2.1 NameNode

image.png 2.1.1 fsimage目录树维护 image.png 存储在内存中, 不定期的刷到硬盘上,修改只会修改内存中的目录树,定期对内存中的目录树进行快照,然后保存到硬盘上,但是如果目录未更新到硬盘上节点挂掉了数据丢失怎么办?
image.png EditLog记录了用户对目录的操作,这样节点故障重启之后也可以将目录树进行更新到硬盘上
2.1.2 NameNode数据放置(决定数据放在哪个节点上) image.png


2.2 DataNode

image.png image.png 数据存储不仅需要存储数据的本身信息,还需要存储数据的描述信息


3. 其他设计

分布式存储系统的基本概念
image.png

HDFS写异常处理:

  1. Lease Recovery
    image.png 如果写入的多个副本不一致, 取最小的副本为保存的数据进行同步
  2. Pipeline Recovery
    image.png

HDFS读异常处理:
image.png


旁路系统

image.png

控制面建设

image.png