HDFS的原理与应用 | 青训营笔记

192 阅读2分钟

这是我参与「第四届青训营 」笔记创作活动的第8天了解了HDFS相关框架,和目前正在推进的项目有所重合,因此理解起来不算很难。

HDFS的原理与应用

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。

分布式文件系统

  • 大容量——更多的机器,更多的存储介质

  • 高可靠——多个副本提高容错能力

  • 低成本——不需要高端硬件来扩容

HDFS的功能特性

  1. 分布式
  2. 容错
  3. 高可用
  4. 高吞吐
  5. 可扩展
  6. 廉价

HDFS的结构原理

其中master负责控制元数据,以及元数据的管理,client作为客户端直接和用户进行交互,而datanode则负责存储文件数据,GFS的存储方式为将文件分成若干个chunk来实现。

HDFS是一个主从结构,一个HDFS集群是由一个名字节点,它是一个管理文件命名空间和调节客户端访问文件的主服务器,当然还有一些数据节点,通常是一个节点一个机器,它来管理对应节点的存储。HDFS对外开放文件命名空间并允许用户数据以文件形式存储。

内部机制是将一个文件分割成一个或多个块,这些块被存储在一组数据节点中。名字节点用来操作文件命名空间的文件或目录操作,如打开,关闭,重命名等等。它同时确定块与数据节点的映射。数据节点负责来自文件系统客户的读写请求。数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指令。

image-20220814234138743.png

分布式存储系统基本概念

  1. 容错能力
  2. 一致性模型
  3. 可扩展性
  4. 节点体系
  5. 数据防止
  6. 单机存储引擎