这是我参与「第四届青训营」笔记创作活动的第1天

1. HDFS产生背景及定义

1）HDFS产生背景

随着数据量越来越大，在一个操作系统中存不下所有的数据，那么我们可以把数据分配到更多的操作系统管理的磁盘中，但是这样带来了不方便管理和维护的问题，所以迫切需要一种系统来管理多台机器上的文件，这就促使了分布式文件管理系统的产生。HDFS只是分布式文件管理系统中的一种。

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由许多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不能够改变，只能追加数据。

不适合低延时数据访问,做不到毫秒级的存储数据
无法高效的对大量小文件进行存储
存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息；
小文件存储的寻址时间会超过读取时间，违反了HDFS的设计目标。
不支持并发写入、文件随机修改