这是我参与「第四届青训营」笔记创作活动的的第10天！

前言

更多介绍概念和场景。

课程回顾

计算框架

Flink
Spark

查询引擎

Presto

课程目标

HDFS的设计与实现
HDFS的产品化体系建设
HDFS多场景的应用
分布式存储系统通用基本概念

HDFS基本介绍

Hadoop技术体系

应用层

调度层

存储层

Windows单机文件系统

Linux单机文件系统

Linux目前支持将近100种文件系统

分布式文件系统

大容量：更多的机器，更多的存储介质

高可靠：多个副本提高容错能力

低成本:不需要高端硬件来扩容

分布式存储系统

对象存储

文件系统

块存储

数据库

HDFS功能特性

分布式：受GFS启发，用Java实现的开源系统，没有实现完整的POSIX文件系统语义
容错：自动处理、规避多种错误场景，例如常见的网络错误、机器宕机等。
高可用：一主多备模式实现元数据高可用，数据多副本实现用户数据的高可用
高吞吐：Client直接从DataNode读取用户数据，服务端支持海量client并发读写
可扩展：支持联邦集群模式，DataNode数量可达10W级别
廉价：只需要通用硬件，不需要定制高端的昂贵硬件设备

演示环境-HDFS节点

架构原理

HDFS组件

Client/SDK

NameNode：Active&Standby

DataNode

Client写流程

请求写入新数据块
返回副本目标DN列表
写数据块
ACK
Flush
DN完成落盘后上报新块

Client读流程

getBlockLocations请求
返回副本目标DN列表
读取数据块

元数据节点NameNode

维护目录树：维护目录树的增删改查操作，保证所有修改都能持久化，以便机器掉电不会造成数据丢失或不一致
维护文件和数据块的关系：文件被切分成多个块，文件以数据块为单位进行多副本存放
维护文件块存放节点信息：通过接收DataNode的心跳汇报信息，维护集群节点的拓扑结构和每个文件块所有副本所在的DataNode类表
分配新文件存放节点：Client创建新的文件时候，需要有NameNode来确定分配目标DataNode

数据节点DataNode

数据块存取：DataNode需要高效实现对数据块在硬盘上的存取
心跳汇报：把存放在本机的数据块列表发送给NameNode，以便NameNode能维护数据块的位置信息，同时让NameNode确定该节点处于正常存活状态

副本复制：

     1. 数据写入时Pipeline IO操作
     2. 机器故障时补全副本

小结

分布式存储系统基本概念
HDFS组件功能职责

关键设计

分布式存储系统基本概念

容错能力：能够处理绝大部分异常场景，例如服务器宕机、网络异常、磁盘故障、网络超时等
一致性模型：为了实现容错，数据必须多副本存放，一致性要解决的问题是如何保障这多个副本的内容都是一致的

「HDFS 原理与应用」（上）|青训营笔记

前言

课程回顾

计算框架

查询引擎

课程目标

HDFS基本介绍

Windows单机文件系统

Linux单机文件系统

分布式文件系统

分布式存储系统

HDFS功能特性

演示环境-HDFS节点

架构原理

HDFS组件

Client写流程

Client读流程

元数据节点NameNode

数据节点DataNode

小结

关键设计

分布式存储系统基本概念