这是我参与「第四届青训营」笔记创作活动的第六天

HDFS（Hadoop Distributed File System）原理于应用

一、HDFS基本介绍

1、Hadoop技术体系

存储层：HDFS（Hadoop Distributed File System）
- 调度层：YARN
- 计算框架：MapReduce。值得注意的是另外一个同属于Apache基金会的开源计算框架Apache Spark，当前业界的使用已经远超于MapReduce，尽管它不属于Hadoop项目，但是和Hadoop也有紧密关系。

2、分布式文件系统

单机文件系统非常普遍，从Windows NTFS到Linux的Ext4等，分布式文件系统是单机文件的延伸，概念术语是相通的，比如目录、文件、目录树等。（大容量、高可靠、低成本）

单机文件系统：常见的如Windows NTFS，Linux的Ext4，虽然不同的操作系统和实现，但是本质都是一样的，解决相同的问题。
分布式文件系统：本质上扩展、延伸了单机文件系统，提供了大容量、高可靠、低成本等功能特性；实现上一般也更为复杂。

3、分布式存储系统的类型

分布式存储系统，了解分布式存储系统的分类，理解不同存储系统的使用场景。直观的区别是用户使用方式，本质是针对不同的使用场景提供高效合理的系统。

对象存储：例如AWS的S3，阿里云的OSS，开源的Minio。
块存储：例如AWS的EBS，开源社区也有Ceph等。
文件系统：HDFS、GlusterFS、CubeFS等
数据库：KV数据库比如Cassandra，关系型数据库如TiDB、OceanBase等

4、HDFS功能特性

分布式 受GFS启发，用Java实现的开源系统，没有实现完整的POSIX文件系统语议
容错自动处理、规避多种错误场景,例如常见的网络错误、机器宕机等。
高可用 一主多备模式实现元数据高可用，数据多副
高吞吐 Client直接从DataNode读取用户数据，服务端支持海量client并发读写
可扩展 支持联邦集群模式，DataNode数量可达 10w级别
廉价只需要通用硬件，不需要定制高端的昂贵硬件设备

5、演示环境

展示一个完整的HDFS服务的部署结构和基本的基本的交互方式，通过简单的交互读写操作开始了解学习HDFS。

节点类型：ZooKeeper/JournalNode/NameNode/DataNode
HDFS 命令行交互
HDFS Web UI

二、架构原理

1、分布式存储系统基本概念

容错能力：能够处理绝大部分异常场景，例如服务器宕机，网络异常，磁盘故障，网路超时等
一致性模型 ：为了实现容错，数据必须多副本存放，一致性要解决的问题是如何保障这多个副本的内容都是一致的
可扩展性 ：分布式存储系统需要具备横向扩张scaleout的能力
节点体系模式 ：常见的有主从模式，对等模式等，不管哪种模式，高可用是必须的功能
数据放置策略 ：系统是由多个节点组成，数据是多个副本存放时，需要考虑数据存放的策略
单机存储引擎 ：在绝大部分存储系统中，数据都是需要落盘持久化，单机引擎需要解决的是根据系统特点，如何高效的存取硬盘数据。

2、HDFS 组件

Client/SDK：读写操作的发起点，HDFS很多读写逻辑都是在SDK中实现的。
NameNode：元数据节点，是HDFS的中枢节点，也是服务的入口。
DataNode：数据节点，存放实际用户数据。

2.1 Client写流程

2.2 Client读流程

2.3 元数据节点NameNode

维护目录树：维护目录树的增删改查操作，保证所有修改都能持久化，以便机器掉电不会造成数据丢失或不一致。
维护文件和数据块的关系：文件被切分成多个块，文件以数据块为单位进行多副本存放
维护文件块存放节点信息：通过接收DataNode的心跳汇报信息，维护集群节点的拓扑结构和每个文件块所有副本所在的DataNode类表。
分配新文件存放节点：
Client创建新的文件时候，需要有NameNode来确定分配目标DataNode

2.4、数据节点DataNode

数据块存取DataNode需要高效实现对数据块在硬盘上的存取
心跳汇报把存放在本机的数据块列表发送给NameNode,以便NameNode能维护数据块的位置信息，同时让 NameNode确定该节点处于正常存活状态
副本复制

数据写入时Pipeline I0操作
机器故障时补全副本

三、关键设计

3.1 NameNode目录树设计

其重点理解EditLog的设计，可类比关系型数据库中的Transaction Log概念。

仅在内存中修改：fsimage
需要立即保存到硬盘：EditLog

3.2 NameNode数据放置

数据块信息维护

目录树保存每个文件的块id
NameNode维护了每个数据块所在的节点信息
NameNode根据DataNode汇报的信息动态维护位置信息
NameNode不会持久化数据块位置信息

数据块的放置分布策略

3.3 DataNode设计

数据块硬盘存放

文件在NameNode已分割成block
DataNode以block为单位对数据进行存取 启动扫盘获得本机文件块列表
DameNode需要知道本机存放了哪些数据块
启动时把本机硬盘上的数据块列表加载在内存上

3.4 Client读写链路的异常处理

Server端异常
Client端异常
慢节点

3.5 HDFS旁路系统

Balancer：均衡DataNode的容量
Mover：确保副本放置策略要求

3.6 HDFS控制面建设：保障系统稳定运行

HouseKeeping组件：比如Balancer，Mover等，这些组件不运行不会马上影响读写操作，但是长时间会积累系统性问题，例如读写不均衡导致IO热点等。
可观测性设施：比如系统指标监控设施等，帮助快速发现定位问题。
运维体系建设：从最基本的命令行手工操作，脚本自动化再到完善的运维平台。

HDFS 原理与应用 | 青训营笔记

HDFS（Hadoop Distributed File System）原理于应用

一、HDFS基本介绍

1、Hadoop技术体系

2、分布式文件系统

3、分布式存储系统的类型

4、HDFS功能特性

5、演示环境

二、架构原理

1、分布式存储系统基本概念

2、HDFS 组件

2.1 Client写流程

2.2 Client读流程

2.3 元数据节点NameNode

2.4、数据节点DataNode

三、关键设计

3.1 NameNode目录树设计

3.2 NameNode数据放置

3.3 DataNode设计

3.4 Client读写链路的异常处理

3.5 HDFS旁路系统

3.6 HDFS控制面建设：保障系统稳定运行

四、应用场景

4.1 大数据生态

4.2 PySpark读取分析HDFS上的文件

4.3 ETL

4.4 OLAP查询引擎

4.5 通用存储应用