Hadoop学习笔记（一）持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第24天，点击查看活动详

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第24天，点击查看活动详情

大数据技术已经应用在我们生活的方方面面，例如：猜你喜欢、个性化推荐、各种搜索引擎等。

通常大数据的单位至少都是以TB（1TB=1024GB）作为基本单位的，同时大数据还具有5种特点：

Hadoop就是大数据的一种实现解决方案，主要解决海量数据的存储和计算的问题，它是一个基于Java编码的Apache开源框架。

借鉴于Google的三篇大数据论文，构建了三个核心部分，HDFS、MapReduce、HBase

这里需要注意的是Hadoop可以指本身框架，也可以表示一个Hadoop生态圈，即HIVE、Spark、HBASE等其他大数据项目。

常见的Hadoop版本是1.X和2.X，这两个版本的结构略有不同。2.X的版本添加了Yarn来负责资源的调度。

Hadoop的架构

HDFS模块负责数据的存储，它是高度容错的，将文件已冗余的形式存储到不同的节点。HDFS中有几个重要的概念，分别是：

Block：它是HDFS的基本读写单元，一个文件会被切割为多个Block进行存储（通常是64MB），同时这些块会被复制到多个DataNode中进行存储。

NameNode：Master主节点，负责管理文件系统的命名空间、集群配置信息、存储块的复制等。
DataNode：Slave从节点，负责存储文件，将Block存储到本地文件系统中，同时保存Block的元信息，并周期的将所保存的Block发送给NameNode。

MapReduce是Hadoop的一个重要模块，它能够在利用多个节点进行并行处理，易于扩展计算节点，则是因为它将计算分为两个步骤：

由两个后台程序JobTracker和TaskTracker进行任务的调度和执行。

Hadoop学习笔记（一）