HDFS原理与应用 | 青训营笔记

2022-08-04 75 阅读6分钟

这是我参与「第四届青训营」笔记创作活动的第2天

一.HDFS基本介绍

1.HDFS:Hadoop Distributed File System

2.Windows单击文件系统

3.Linux单击文件系统：BTRFS,ZFS,XFS,EXT4

4.分布式文件系统：

大容量：更多的机器，更多的存储介质
高可靠：多个副本提高容错能力
低成本：不需要高端硬件来扩容

5.分布式存储系统

6.DHDFS功能特性

分布式：受GFS启发，用Java实现的开源系统，没有实现完整的POSIX文件系统语义
容错：自动处理，规避多种错误场景，例如常见的网络错误，机器宕机等
高可用：一生多备模式实现元数据高可用，数据多副本实现用户数据的高可用
高吞吐：Client直接DataNode读取用户数据，服务器支持海量client并发读写
可拓展：支持联邦集群模式，DataNode数量可达10w级别
廉价：只要通用硬件，不需要定制高端的昂贵硬件设备

二.架构原理

1.HDFS组件

2.Client写流程

3.Client读流程

4.元数据节点NameNode

维护目录树：维护目录树的增删改查操作，保证所有修改都能持久化，以便机器掉电不会造成数据丢失或不一致
维护文件和数据块的关系：文件被切分成多个块，文件以数据块为单位进行多副本存放
维护文件块存放节点信息：通过接收DataNode的心跳汇报信息，维护集群节点的拓扑结构和每个文件块所有副本所在的DataNode类表
分配新文件存放节点：Client创建新的文件时候，需要有NameNode来确定分配目标DataNode

5.数据节点DataNode

数据块存储：DataNode需要高效实现对数据块在硬盘上的存取
心跳汇报：把存放在本机的数据块列表发送给NameNode，以便NameNode能维护数据块的位置信息，同时让NameNode确定该节点处于正常存活状态
副本复制：
1.数据写入时Pipeline IO操作
2.机器故障时补全副本

三.关键设计

1.分布式存储系统基本概念：

容错能力：能够处理绝大部分异常场景：例如服务器宕机，网络异常，磁盘故障，网络超时等
一致性模型：为了实现容错，数据必须多副本存放，一致性要解决的问题是如何保障这多个副本的内容都是一致的
可拓展性：分布式存储系统需要具备横向扩张scale-out的能力
节点体系：常见的有主从模式，对等模式等，不管哪种模式，高可用是必须的功能
数据放置：系统是由多个节点组成，数据是多个副本存放时，需要考虑数据存放的策略
单机存储引擎：在绝大部分存储系统中，数据都是需要落盘持久化，单机引擎需要解决的是根据系统符点，如何高效地存取硬盘数据

2.NameNode目录树维护（增删改查）

蓝色：目录树绿色：文件定期对目录树进行快照，再保存在硬盘上

(1)fsimage

文件系统目录树
完整的存放在内存中
定时存放到硬盘上
修改是只会修改内存中的目录树
(2)EditLog
目录树的修改日志
client更新目录树需要持久化EditLog后才能表示更新成功
EditLog可存放在本地文件系统，也可存放在专用系统上
NameNode HA方案一个关键点就是如何实现EditLog共享

3.NameNode在选择DataNode的决策过程：数据放置

(1)数据块信息维护

目录树保存每个文件的块id
NameNode维护了每个数据块所在的节点信息
NameNode根据DataNode汇报的信息动态维护位置信息
NameNode不会持久化数据块位置信息
(2)数据防止策略
数据存放到那些节点
数据均衡需要怎么合理搬迁数据
三个副本怎么合理放置

4.DataNode

(1)数据块的硬盘存放

文件在NameNode已分割成block
DataNode以block为单位对数据进行存取

第一个绿色框指盘符第二三个绿色框是blockid通过某种哈希算法算出来的第一个红色框指数据本身内容第二个红色框指元数据，描述此块的校验码 (2)启动扫盘

DataNode需要知道本机存放了哪些数据块
启动时把本机硬盘上的数据块列表加载在内存中

5.HDFS写异常处理：Lease Recovery

租约：Client要修改一个文件时，需要通过NameNode上锁，这个锁就是租约（Lease）
情景：文件写了一半，client自己挂掉了。可能产生的问题：①副本不一致②Lease无法释放
解决方法：Lease Recovery
①副本不一致：比较三个副本大小长度，如果不一样，就选最小的作为最终版本去更新它，提供给NameNode进行写入。
②Lease无法释放：在客户端拿租约时有十分钟超时，客户拿到租约若有定期续租，NameNode就认为它正常活着，如果挂掉无法续约了，十分钟过后，NameNode就判断它死了，此时有别的进程或客户端需要续约，就会把原客户端踢掉。

6.HDFS写异常处理：Pipeline Recovery

情景：文件写入过程，DataNode侧出现异常挂掉了
异常出现的时机：①创建连接时②数据传输时③complete阶段
解决方法：Pipeline Recovery
①创建连接时：重新选一个
②数据传输时：pipeline重新构建
③complete阶段：pipeline重新构建

7.Client读异常处理

情景：读取文件的过程中，DataNode侧出现异常挂掉了
解决方法：节点Failover（读另一个好的节点）
增强情景：节点半死不过，读取很慢（读另一个好的节点）

8.旁路系统：异步解决一些可能会积累恶化的问题

Balancer：均衡DataNode的容量
Mover：确保副本放置符合策略要求

9.控制面建设

可观测性设施：指标埋点、数据采集、访问日志、数据分析
运维体系建设：运维操作需要平台化、NameNode操作复杂、DataNode机器规模庞大、组件控制面API

四.应用场景

1.PySpark读写HDFS文件：

①读取本地文件系上的文件 ②把查询结果保存到本地文件 ③读取HDFS上的文件 ⑤把查询结果保存到HDFS上

2.ETL:Extract,Transform,Load

3.OLAP查询引擎

4.HBase

5.机器学习

6.通用存储应用