HDFS原理与应用 | 青训营笔记一、HDFS基本介绍 HDFS（Hadoop Distributed File Sys

一、HDFS基本介绍

HDFS（Hadoop Distributed File System）

1）Windows单机文件系统

2）Linux单机文件系统

3）分布式文件系统

4）分布式存储系统

01.大容量：更多的机器，更多的存储介质

02.高可靠：多个副本提高容错能力

03.低成本：不需要高端硬件来扩容

5）功能特性

01.分布式：受GFS启发，用Java实现的开源系统，没有实现完整的POSIX文件系统语义。

02.容错：自动处理、规避多种错误场景，例如常见的网络错误、机器宿机等。

03.高可用：一主多备模式实现元数据高可用，数据多副本实现用户数据的高可用。

04.高吞吐：Client直接从DataNode读取用户数据，服务端支持海量client并发读写

05.可扩展：支持联邦集群模式，DataNode数量可达10w级别

06.廉价：只需要通用硬件，不需要定制高端的昂贵硬件设备

6）演示环境

二、架构原理

1）HDFS 组件

2）Client 写流程

3）Client 读流程

4）元数据节点NameNode

01.维护目录树：维护目录树的增删改查操作，保证所有修改都持久化，以便机器掉电不会造成数据丢失或不一致。

02维护文件和数据块的关系：文件被切分成多个块，文件以数据块为单位进行多副本存放。

03.维护文件块存放节点信息：通过接收DataNode的心跳汇报信息，维护集群节点的拓扑结构和每个文件块所有副本所在的DataNode类表。

04.分配新文件存放节点：Client创建新的文件时候，需要有NameNode来确定分配目DataNode。

5）数据节点 DataNode

01.数据块存取：DataNode需要高效实现对数据块在硬盘上的存取。

02.心跳汇报：把存放在本机的数据块列表发送给NameNode，以便NameNode能维护数据块的位置信息，同时让NameNode确定该节点处于正常存活状态。

03.副本复制：数据写入时 Pipeline lO操作；机器故障时补全副本。

三、关键设计

分布式存储系统基本概念

01.容错能力：能够处理绝大部分异常场景，例如服务器宕机、网络异常、磁盘故障、网络超时等。

02.一致性模型：为了实现容错，数据必须多副本存放，一致性要解决的问题是如何保障这多个副本的内容都是一致的。

03.可扩展性：分布式存储系统需要具备横向扩张scale-out的能力

04.节点体系：常见的有主从模式、对等模式等，不管哪种模式，高可用是必须的功能。

05.数据放置：系统是由多个节点组成，数据是多个副本存放时，需要考虑数据存放的策略.

06.单机存储引擎：在绝大部分存储系统中，数据都是需要落盘持久化，单机引擎需要解决的是根据系统特点，如何高效得存取硬盘数据。

1）NameNode目录树维护

2）NameNode数据放置

3）DataNode

4）HDFS写异常处理

5）Client读异常处理

6）旁路系统

7）控制面建设

四、应用场景

1）PySpark读写HDFS演示

2）ETL概念

3）OLAP查询引擎

4）通用存储场景