HDFS原理与应用|青训营笔记

用户3811946367838

2022-07-30 127 阅读4分钟

HDFS原理与应用|青训营笔记

这是我参与「第四届青训营」笔记创作活动的的第5天

1.HDFS基本介绍

分布式：受GFS启发，用java实现的开源系统，没有实现完整的posix文件系统语义
容错：自动处理、规避很多错误场景，例如常见的网络错误、机器宕机
高可用：一主多备模式实现元数据高可用，数据多副本实现用户数据的高可用
高吞吐：client直接从DataNode读取用户数据，服务端支持海量client并发读写
可扩展：支持联邦集群模式、DataNode数量可达10W级别
廉价：只需要通用硬件，不需要定制高端的昂贵硬件设备

2.架构原理

2.1元数据节点NameNode

维护目录树：维护目录树的增删改查操作，保证所有修改都能持久化，以便机器掉电不会造成数据丢失或不一致
维护文件和数据块的关系：文件被切分成多个块文件以数据块为单位进行多副本存放
维护文件块存放节点信息：通过接收DataNode的心跳汇报信息，维护集群节点的拓扑结构和每个文件块所有副本所在DataNode类表
分配新文件存放节点：Client创建新的文件时候，需要有NameNode来确定分配目标DataNode

2.2数据节点DataNode

数据块存取：DataNode需要高效实现对数据块在硬盘上的存取
心跳汇报：把存放在本机的数据块列表发送给NameNode，以便NameNode能维护数据块的位置信息，同时让NameNode确定该节点处于正常存活状态
副本复制：数据写入是Pipeline IO 操作、机器故障时补全副本

3.关键设计

3.1分布式存储系统基本概念

容错能力：能处理绝大部分异常场景
一致性模型：为了实现容错，数据必须多副本存放，解决的问题是如何保证其一致性
可扩展性：分布式存储系统需要具备横向扩张scale-out的能力
节点体系：常见的有主从模式、对等模式等、不管哪种模式，高可用是必须的功能
数据放置：系统实由多个节点组成，数据是多个副本存放是，需要考虑数据存放的策略
单机存储引擎：在绝大部分存储系统中，数据都是需要落盘持久化，单机引擎需要解决的事根据系统特点，如何高效存取硬盘数据

3.2NameNode 目录树维护

fsimage：目录树是存在内存中的，定时对内存中的目录树进行快照存在硬盘中
EditLog：映入EditLog防止掉电目录树丢失（重新上电后可以通过EditLog构建完整的目录树）

3.3NameNode 数据放置

数据块信息维护：

目录树保存每个文件的块id、
NameNode维护了每个数据块所在的节点信息、
NameNode根据DataNode汇报的信息动态维护位置信息
NameNode不会持久化数据块位置信息

数据放置策略：

新数据存放到哪个节点
数据均衡需要怎么合理搬迁数据
3个副本怎么合理放置

3.3DataNode

数据块的硬盘存放：

文件在NameNode已分割成block
DataNode以block为单位对数据进行存取

启动扫盘:

DataNode需要知道本机存放了那些数据块
启动时把本机硬盘上的数据块列表加载在内存中

3.4HDFS写异常处理：Lease Recovery

情景：文件写了一半，client自己挂掉了。
可能产生的问题：副本不一致、Lease无法释放
租约：Client 要修改一个文件时，需要通过NameNode上锁，这个锁就是租约（Lease）。
解决方法：Lease Recovery

3.5HDFS写异常处理：Pipeline Recovery

情景：文件写入过程中，DataNode侧出现异常挂掉了
异常出现的时机：创建连接时（Pipeline重新选择）、数据传输时（Pipeline重新构建）、complete阶段（Pipeline重新衔接、构建）
解决方法：Pipeline Recovery

3.5Client读异常处理

情景：读取文件的过程，Dataode侧出现异常挂掉了
解决方法：节点Failover
增强情景：【半死不活，读取很慢怎么办，对其进行优化切换】

3.6旁路系统

Balancer：均衡DataNode的容量
Mover：确保副本放置符合策略要求

3.7控制面建设

可观测性设施：指标埋点、数据采集、访问日志、数据分析
运维体系建设：运维操作需要平台化、NameNode操作复杂、DataNode机器规模庞大、组件控制面API