这是我参与「第四届青训营」笔记创作活动的第8天。

课程目录

1.HDFS基本介绍

1.1 Windows单机文件系统

1.2 Linux单机文件系统

1.3 分布式文件系统

1.4 分布式存储系统

1.5 HDFS功能特性

1.6 演示环境-HDFS节点

1.小结

2.架构原理

2.1 HDFS组件

2.2 Client写流程

2.3 Client读流程

2.4 源数据节点 NameNode

2.5 数据节点 DataNode

2.小结

3.关键设计

分布式存储系统基本概念

3.1 NameNode目录树维护

3.2 NameNode数据放置

3.3 DataNode

3.4 HDFS写异常处理：Lease Recovery

3.4 HDFS写异常处理：Pipeline Recovery

3.5 Client读异常处理

3.6 旁路系统

3.7 控制面建设

3.小结

4.应用场景

4.1 使用HDFS的公司

4.2 初窥大数据生态

4.3 演示：PySpark读写HDFS文件

4.4 ETL：Extract，Transform，Load

4.5 OLAP查询引擎

4.6 HBase

4.7 机器学习

4.8 通用存储应用

4.小结

本次课程个人总结

HDFS原理与应用.jpg

HDFS原理与应用 | 青训营笔记

课程目录

1.HDFS基本介绍

1.1 Windows单机文件系统

1.2 Linux单机文件系统

1.3 分布式文件系统

1.4 分布式存储系统

1.5 HDFS功能特性

1.6 演示环境-HDFS节点

1.小结

2.架构原理

2.1 HDFS组件

2.2 Client写流程

2.3 Client读流程

2.4 源数据节点 NameNode

2.5 数据节点 DataNode

2.小结

3.关键设计

分布式存储系统基本概念

3.1 NameNode目录树维护

3.2 NameNode数据放置

3.3 DataNode

3.4 HDFS写异常处理：Lease Recovery

3.4 HDFS写异常处理：Pipeline Recovery

3.5 Client读异常处理

3.6 旁路系统

3.7 控制面建设

3.小结

4.应用场景

4.1 使用HDFS的公司

4.2 初窥大数据生态

4.3 演示：PySpark读写HDFS文件

4.4 ETL：Extract，Transform，Load

4.5 OLAP查询引擎

4.6 HBase

4.7 机器学习

4.8 通用存储应用

4.小结

本次课程个人总结