HDFS原理与应用 | 青训营笔记

2022-08-06 52 阅读2分钟

这是我参与「第四届青训营」笔记创作活动的第8天

1.HDFS基本介绍

HDFS：Hadoop Distributed File System

spark不是Hadoop的子项目，但是其很多功能的实现都依赖于Hadoop

①Windows单机文件系统

②Linux单机文件系统

③分布式文件系统

大容量：更多的机器，更多的存储介质

高可靠：多个副本提高容错能力

低成本：不需要高端硬件来扩容

④分布式存储系统

⑤HDFS功能特性

分布式：受GFS启发，用Java实现的开源系统，没有实现完整的POSIX文件系统语义
容错：自动处理、规避多种错误场景，例如常见的网络错误、机器宕机等
高可用：一主多备模式实现元数据高可用，数据多副本实现用户数据的高可用
高吞吐：Client直接从DataNode读取用户数据，服务端支持海量Clinet并发读写
可扩展：支持联邦集群模式，DataNode数量可达10w级别
廉价：只需要通用硬件，不需要定制高端的昂贵硬件设备

2.架构建设

HDFS架构介绍和组件用途

①HDFS组件-Client写流程

用户的数据都持久地存储的在DataNode的硬盘上

NameNode是三大件中最复杂的组件，是整个系统的中枢节点

数据写到三个副本是通过pipeline的方式（用户只用写到一个DataNode，其他两个DataNode通过与其交互写数据块）

②Client读流程

③元数据节点NameNode

维护目录树：维护目录树的增删改查操作，保证所有修改都能持久化，以便机器掉电不会造成数据丢失或不一致
维护文件和数据块的关系：文件被切分成多个块，文件以数据块为单位进行多副本存放
维护文件块存放节点信息：通过接收DataNode的心跳汇报信息，维护集群节点的拓扑结构和每个文件块所有副本所在的DataNode类表
分配文件存放节点：Client创建新的文件时，需要有NameNode来确定分配目标DataNode

④数据节点DataNode

数据块存取：DataNode需要高效实现对数据块在硬盘上的存取
心跳汇报：把存放在本机的数据块列表发送给NameNode，以便NameNode能维护数据块的位置信息，同时让NameNode确定该节点处于正常存活状态
副本复制：数据写入时Pipeline IO操作；机器故障时补全副本