为什么需要DFS:
一台计算机存储的容量有限,一旦数据量达到一定级别,就需要将数据存放在多台机器上,这就是分布式文件系统,称为DFS(DistributedFile System)
什么是DFS
分布式文件系统DFS是基于Master/Slave模式,一个系统能提供多个供用户访问的服务器,一般都会有容错和备份的功能。
DFS结构
物理结构: 由计算机集群中的多个节点构成
节点分为两类:
第一类:主节点(MasterNode)也称名称节点(NameNode)
第二类:从节点(SlaveNode)也称数据节点(DataNode)
HDFS的体系结构
HDFS是一个使用Java实现的分布式、可横向扩展的文件系统
HDFS包括一个名称节点(NameNode)和若干数据节点(DataNode),属于主从关系的结构模型
名称节点负责管理文件命名空间及客户端对文件的访问,即中心服务器。
数据节点在名称节点的调动下处理数据
HDFS适合存储大量文件,总存储量可以达到PB/EB,单个文件一般在几百兆。
适用于处理批量数据,不适合随机定位访问
HDFS优缺点
1.优点
- 高容错率:数据自动保存多个副本,副本丢失后自动恢复
- 适合批处理
- 适合大数据处理
- 可在廉价的机器上构建
2.缺点
- 不适合低延时数据访问:寻址时间长,适合读取大文件,低延时与高吞吐率
- 不适合小文件存取:占用NameNode大量内存,寻找时间超过读取时间
- 并发写入、文件随机修改:一个文件只能有一个写入者,仅支持append,不允许修改文件。