hdfs原理与实践 | 青训营笔记

94 阅读1分钟

这是我参与「第四届青训营 」笔记创作活动的第6天

HDFS 的目的是实现一个低成本的高可用、大容量的文件系统,最初的实现有参考过谷歌的GFS。

其组件主要包括NameNode和DataNode两个部分。

对于读写操作而言,主要步骤就是先获取元数据,客户端再具体去获取数据。

对于HDFS而言最大的问题是沾上了分布式这个概念,由此导致了许多需要处理的问题。

比如说,容错性、数据一致性、扩展性等

对于NameNode而言,最重要的两个东西是fsimage和Editlog,这两者维护了目录树,并且提供了failover 故障恢复的能力。