这是我参与「第四届青训营 」笔记创作活动的第6天
HDFS 的目的是实现一个低成本的高可用、大容量的文件系统,最初的实现有参考过谷歌的GFS。
其组件主要包括NameNode和DataNode两个部分。
对于读写操作而言,主要步骤就是先获取元数据,客户端再具体去获取数据。
对于HDFS而言最大的问题是沾上了分布式这个概念,由此导致了许多需要处理的问题。
比如说,容错性、数据一致性、扩展性等
对于NameNode而言,最重要的两个东西是fsimage和Editlog,这两者维护了目录树,并且提供了failover 故障恢复的能力。