【笔记六】HDFS原理与应用|青训营笔记

小小冰青松

2022-08-21 135 阅读3分钟

这是我参与「第四届青训营」笔记创作活动的第6天

参考链接：juejin.cn/post/712494…

引言

认识Hadoop技术体系，理解“计算+存储”的程序应用逻辑
- 存储层：HDFS
- 调度层：YARN
- 计算框架：MapReduce。值得注意的是另外一个同属于Apache基金会的开源计算框架Apache Spark，当前业界的使用已经远超于MapReduce，尽管它不属于Hadoop项目，但是和Hadoop也有紧密关系。

文件系统：单机文件系统非常普遍，从Windows NTFS到Linux的Ext4等，分布式文件系统是单机文件的延伸，概念术语是相通的，比如目录、文件、目录树等。
- 单机文件系统：常见的如Windows NTFS，Linux的Ext4，虽然不同的操作系统和实现，但是本质都是一样的，解决相同的问题。
- 分布式文件系统：本质上扩展、延伸了单机文件系统，提供了大容量、高可靠、低成本等功能特性；实现上一般也更为复杂。

分布式存储系统，了解分布式存储系统的分类，理解不同存储系统的使用场景。直观的区别是用户使用方式，本质是针对不同的使用场景提供高效合理的系统。
- 对象存储：例如AWS的S3，阿里云的OSS，开源的Minio。
- 块存储：例如AWS的EBS，开源社区也有Ceph等。
- 文件系统：HDFS、GlusterFS、CubeFS等
- 数据库：KV数据库比如Cassandra，关系型数据库如TiDB、OceanBase等

HDFS功能特性：需要注意HDFS尽管是一个文件系统，但是它没有完整实现POSIX文件系统规范。
- 分布式
- 容错
- 高可用
- 高吞吐
- 可扩展
- 廉价

HDFS演示环境：展示一个完整的HDFS服务的部署结构和基本的基本的交互方式，通过简单的交互读写操作开始了解学习HDFS。
- 节点类型：ZooKeeper/JournalNode/NameNode/DataNode
- HDFS 命令行交互
- HDFS Web UI

架构原理

分布式存储系统的基本概念，这些概念基本上每个分布式存储系统都会涉及到。
- 容错能力
- 一致性模型
- 可扩展性
- 节点体系模式
- 数据放置策略
- 单机存储引擎

HDFS组件
- Client/SDK：读写操作的发起点，HDFS很多读写逻辑都是在SDK中实现的。
- NameNode：元数据节点，是HDFS的中枢节点，也是服务的入口。
- DataNode：数据节点，存放实际用户数据。

HDFS读流程

读.png

HDFS写流程

写.png

关键设计

NameNode目录树设计，重点理解EditLog的设计，可类比关系型数据库中的Transaction Log概念。
- 仅在内存中修改：fsimage
- 需要立即保存到硬盘：EditLog

NameNode数据放置：数据分散在各个节点上，如何定位找到它们？
- 文件和数据块的映射关系
- 数据块的放置分布策略

DataNode设计：数据如何落盘存放？
- 数据块路径
- 启动扫盘获得本机文件块列表

Client读写链路的异常处理
- Server端异常
- Client端异常
- 慢节点

控制面建设：保障系统稳定运行
- HouseKeeping组件：比如Balancer，Mover等，这些组件不运行不会马上影响读写操作，但是长时间会积累系统性问题，例如读写不均衡导致IO热点等。
- 可观测性设施：比如系统指标监控设施等，帮助快速发现定位问题。
- 运维体系建设：从最基本的命令行手工操作，脚本自动化再到完善的运维平台。

应用场景

大数据技术中的应用
- HDFS在大数据技术体系中的角色
- 演示：PySpark读取分析HDFS上的文件
  - 数据如何产生
  - 数据如何读取
  - 数据如何保存
- ETL：数据如何产生、传输
- OLAP：如何高效地读取分析数据

存储底座
- HBase
- 机器学习
- 通用场景