Hadoop学习笔记（1）：概念和整体架构由于工作原因，必须学习和深入一下Hadoop，特此记录笔记。 Apache H

Hadoop简介和历史
Hadoop架构体系
Master和Slave节点
数据分析面临的问题和Hadoop思想

　　由于工作原因，必须学习和深入一下Hadoop，特此记录笔记。

　　什么是hadoop？

　　Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。

　　Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式：应用程序被分割成许多小部分，而每个部分都能在集群中的任意节点上执行或重新执行。此外，Hadoop还提供了分布式文件系统，用以存储所有计算节点的数据，这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计，使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。　　

　　hadoop历史

　　Hadoop由 Apache Software Foundation 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

　　2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。例如，如果您要 grep 一个 10TB 的巨型文件，会出现什么情况？在传统的系统上，这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题，采用并行执行机制，因此能大大提高效率。

Hadoop Common：在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的子项目，其余内容为Hadoop Common
HDFS：Hadoop分布式文件系统（Distributed File System）－HDFS（Hadoop Distributed File System）
MapReduce：并行计算框架，0.20前使用org.apache.hadoop.mapred旧接口，0.20版本开始引入org.apache.hadoop.mapreduce的新API
Apache HBase：分布式NoSQL列数据库，类似谷歌公司BigTable。
Apache Hive：构建于hadoop之上的数据仓库，通过一种类SQL语言HiveQL为用户提供数据的归纳、查询和分析等功能。Hive最初由Facebook贡献。
Apache Mahout：机器学习算法软件包。
Apache Sqoop：结构化数据（如关系数据库）与Apache Hadoop之间的数据转换工具。
Apache ZooKeeper：分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献。
Apache Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制。

　　hadoop平台子项目

　　现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统（HDFS）以及一些相关项目，有Apache Hive和Apache HBase等等。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

　　如图，最下面一层就是hadoop的核心代码，核心代码之上实现了两个最核心的功能：MapReduce和HDFS，这是hadoop的两大支柱！因为hadoop是Java写的，为了方便其他对Java语言不熟悉的程序员，在这之上又有Pig，这是一个轻量级的语言，用户可以使用Pig用于数据分析和处理，系统会自动把它转化为MapReduce程序。

　　还有一个Hive，很重要！这是一个传统的SQL到MapReduce的映射器，面向传统的数据库工程师。但是不支持全部SQL。还有一个子项目叫HBase，一个非关系数据库，NoSQL数据库，数据是列存储的，提高响应速度，减少IO量，可以做成分布式集群。

　　ZooKeeper负责服务器节点和进程间的通信，是一个协调工具，因为Hadoop的几乎每个子项目都是用动物做logo，故这个协调软件叫动物园管理员。

　　Hadoop架构

　　如图，两个服务器机柜，每个圆柱代表一个物理机，各个物理节点通过网线连接，连接到交换机，然后客户端通过互联网来访问。其中各个物理机上都运行着Hadoop的一些后台进程。

　　Namenode

　　也叫名称节点，是HDFS的守护程序（一个核心程序），对整个分布式文件系统进行总控制，会纪录所有的元数据分布存储的状态信息，比如文件是如何分割成数据块的，以及这些数据块被存储到哪些节点上，还有对内存和I/O进行集中管理，用户首先会访问Namenode，通过该总控节点获取文件分布的状态信息，找到文件分布到了哪些数据节点，然后在和这些节点打交道，把文件拿到。故这是一个核心节点。

　　不过这是个单点，发生故障将使集群崩溃。

　　Secondary Namenode

　　在Hadoop中，有一些命名不好的模块，Secondary NameNode是其中之一。从它的名字上看，它给人的感觉就像是NameNode的备份，比如有人叫它第二名称节点，仿佛给人感觉还有后续……但它实际上却不完全是。

　　最好翻译为辅助名称节点，或者检查点节点，它是监控HDFS状态的辅助后台程序，可以保存名称节点的副本，故每个集群都有一个，它与NameNode进行通讯，定期保存HDFS元数据快照。NameNode故障可以作为备用NameNode使用，目前还不能自动切换。但是功能绝不仅限于此。所谓后备也不是它的主要功能。后续详细解释。

DataNode

　　叫数据节点，每台从服务器节点都运行一个，负责把HDFS数据块读、写到本地文件系统。这三个东西组成了Hadoop平台其中一个支柱——HDFS体系。

　　再看另一个支柱——MapReduce，有两个后台进程。

JobTracker

　　叫作业跟踪器，运行到主节点（Namenode）上的一个很重要的进程，是MapReduce体系的调度器。用于处理作业（用户提交的代码）的后台程序，决定有哪些文件参与作业的处理，然后把作业切割成为一个个的小task，并把它们分配到所需要的数据所在的子节点。

　　Hadoop的原则就是就近运行，数据和程序要在同一个物理节点里，数据在哪里，程序就跑去哪里运行。这个工作是JobTracker做的，监控task，还会重启失败的task（于不同的节点），每个集群只有唯一一个JobTracker，类似单点的nn，位于Master节点（稍后解释Master节点和slave节点）。

TaskTracker

　　叫任务跟踪器，MapReduce体系的最后一个后台进程，位于每个slave节点上，与datanode结合（代码与数据一起的原则），管理各自节点上的task（由jobtracker分配），每个节点只有一个tasktracker，但一个tasktracker可以启动多个JVM，用于并行执行map或reduce任务，它与jobtracker交互通信，可以告知jobtracker子任务完成情况。

　　Master与Slave

　　Master节点：运行了Namenode、或者Secondary Namenode、或者Jobtracker的节点。还有浏览器（用于观看管理界面），等其它Hadoop工具。Master不是唯一的！

　　Slave节点：运行Tasktracker、Datanode的机器。

　　数据分析者面临的问题和Hadoop的思想

　　目前需要我们处理的数据日趋庞大，无论是入库和查询，都出现性能瓶颈，用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高。使用的模型越来越复杂，计算量指数级上升。

　　故，人们希望出现一种技术或者工具来解决性能瓶颈，在可见未来不容易出现新瓶颈，并且学习成本尽量低，使得过去所拥有的技能可以平稳过渡。比如SQL、R等，还有转移平台的成本能否控制最低，比如平台软硬件成本，再开发成本，技能再培养成本，维护成本等。

　　而Hadoop就能解决如上问题——分而治之，化繁为简。

辛苦的劳动，转载请注明出处，如果真心帮到了您，为鼓励更多的写作，您可以选择博客右侧的打赏功能。

补充：

Hadoop是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多的小的工作单元，并把这些单元放到任何集群节点上执行。在MapReduce中，一个准备提交执行的应用程序称为“作业（job）”，而从一个作业划分出得、运行于各个计算节点的工作单元称为“任务（task）”。此外，Hadoop提供的分布式文件系统（HDFS）主要负责各个节点的数据存储，并实现了高吞吐率的数据读写。

　　在分布式存储和分布式计算方面，Hadoop都是用从/从（Master/Slave）架构。在一个配置完整的集群上，想让Hadoop这头大象奔跑起来，需要在集群中运行一系列后台(deamon）程序。不同的后台程序扮演不用的角色，这些角色由NameNode、DataNode、Secondary NameNode、JobTracker、TaskTracker组成。其中NameNode、Secondary NameNode、JobTracker运行在Master节点上，而在每个Slave节点上，部署一个DataNode和TaskTracker，以便这个Slave服务器运行的数据处理程序能尽可能直接处理本机的数据。对Master节点需要特别说明的是，在小集群中，Secondary NameNode可以属于某个从节点；在大型集群中，NameNode和JobTracker被分别部署在两台服务器上。

1.NameNode

　　NameNode是HDFS的守护程序，负责记录文件时如何分割成数据块的，以及这些数据块分别被存储在哪些数据节点上。它的主要功能是对内存及I/O的集中管理。

　　一般来说，NameNode所在的服务器不存储任何用户信息或执行计算任务，以避免这些程序降低服务器的性能。如果其他从服务器宕机，Hadoop集群仍旧可以继续运作，或者快速重启。但是，由于NameNode是Hadoop集群中的单点，一旦NameNode服务器宕机，整个系统将无法运转。

2.DataNode

　　集群中的每个服务器都运行一个DataNode后台程序，这个后台程序负责把HDFS数据块读写到本地的文件系统。当需要通过客户端读/写某个数据时，先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作，然后，客户端直接与这个DataNode服务器上的后台程序进行通信，并且对相关的数据块进行读/写操作。

3.Secondary NameNode

　　Secondary NameNode是一个用来监控HDFS状态的辅助后台程序。就想NameNode一样，每个集群都有一个Secondary NameNode，并且部署在一个单独的服务器上。Secondary NameNode不同于NameNode，它不接受或者记录任何实时的数据变化，但是，它会与NameNode进行通信，以便定期地保存HDFS元数据的快照。由于NameNode是单点的，通过Secondary NameNode的快照功能，可以将NameNode的宕机时间和数据损失降低到最小。同时，如果NameNode发生问题，Secondary NameNode可以及时地作为备用NameNode使用。

4.JobTracker

　　JobTracker后台程序用来连接应用程序与Hadoop。用户代码提交到集群以后，由JobTracker决定哪个文件将被处理，并且为不同的task分配节点。同时，它还监控所有的task，一旦某个task失败了，JobTracker就会自动重新开启这个task，在大多数情况下这个task会被放在不用的节点上。每个Hadoop集群只有一个JobTracker，一般运行在集群的Master节点上。

5.TaskTracker

　　TaskTracker与负责存储数据的DataNode相结合，其处理结构上也遵循主/从架构。JobTracker位于主节点，统领MapReduce工作；而TaskTrackers位于从节点，独立管理各自的task。每个TaskTracker负责独立执行具体的task，而JobTracker负责分配task。虽然每个从节点仅有一个唯一的一个TaskTracker，但是每个TaskTracker可以产生多个java虚拟机（JVM），用于并行处理多个map以及reduce任务。TaskTracker的一个重要职责就是与JobTracker交互。如果JobTracker无法准时地获取TaskTracker提交的信息，JobTracker就判定TaskTracker已经崩溃，并将任务分配给其他节点处理。