HDFS原理与应用 | 青训营笔记这是我参与「第四届青训营」笔记创作活动的第11天 8.1 HDFS 基本介绍 HDF

这是我参与「第四届青训营」笔记创作活动的第11天

8.1 HDFS 基本介绍

HDFS：hadoop distributed file system

1.Windows单机文件系统

2.Linux单机文件系统

目前支持将近100种文件系统

3.分布式文件系统

1）大容量：更多的机器，更多的存储介质

2）高可靠：多个副本提高容错能力

3）低成本：不需要高端硬件来扩容

4.分布式存储系统

1）对象存储

2）文件系统

3）块存储

4）数据库

5.HDFS功能特性

1）分布式：受GFS启发，用Java实现的开源系统，没有实现完整的POSIX文件系统语义

2）容错：自动处理、规避多种错误场景，例如常见的网络错误，机器宕机等

3）高可用：一主多备模式实现元数据高可用，数据多副本实现用户数据的高可用

4）高吞吐：Client直接从DataNode读取用户数据，服务端支持海量client并发读写

5）可扩展：支持联邦集群模式，DataNode数量可达 10w级别

6）廉价：只需要通用硬件，不需要定制高端的昂贵硬件设备

6.演示环境——HDFS节点

8.2 架构原理

1.HDFS组件

2.Client写流程

3.Client读流程

4.元数据节点NameNode

1)维护目录树:维护目录树的增删改查操作，保证所有修改都能持久化，以便机器掉电不会造成数据丢失或不一致。

2)维护文件和数据块的关系:文件被切分成多个块，文件以数据块为单位进行多副本存放

3)维护文件块存放节点信息:通过接收DataNode的心跳汇报信息，维护集群节点的拓扑结构和每个文件块所有副本所在的DataNode类表。

4)分配新文件存放节点:Client创建新的文件时候，需要有NameNode来确定分配目标DataNode

5.数据节点DataNode

1）数据块存取：DataNode需要高效实现对数据块在硬盘上的存取

2）心跳汇报：把存放在本机的数据块列表发送给NameNode,以便NameNode能维护数据块的位置信息，同时让NameNode确定该节点处于正常存活状态

3）副本复制：a.数据写入时Pipeline I0操作 b.机器故障时补全副本