大数据启蒙-Hadoop

299 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第16天,点击查看活动详情

Hadoop是什么

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构
  2. 主要解决,海量数据的存储和海量数据的分析计算问题。
  3. 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

Hadoop是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。

Hadoop发展历史

Hadoop创始人是Doug Cutting,Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

  • 2003年、2004年谷歌发表的三篇论文为该问题提供了可行的解决方案。 ——分布式文件系统(GFS),可用于处理海量网页的存储 ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。 ——分布式的结构化数据存储系统Bigtable,用来处理海量结构化数据。

    Doug Cutting基于GFS和MAPREDUCE思想,开发了Hadoop。

  • Hadoop由Apache基金会于2005年秋天作为Lucene的子项目的一部分正式引入。

  • 2006年3 月份,Map/Reduce 和 Nutch Distributed File System(NDFS)分别被纳入称为 Hadoop 的项目中。Cloudera公司在2008年开始提供基于Hadoop的软件和服务

  • 2016年10月hadoop-2.6.5

  • 2017年12月hadoop-3.0.0

为什么叫Hadoop Logo为什么是黄色的大象?

因为Doug Cutting的儿子有一只黄色大象玩具,就叫做Hadoop,也是Hadoop的名字来源。

image.png

Hadoop组成模块

根据官网说明Hadoop包含以下模块:

  • Hadoop Common: The common utilities that support the other Hadoop modules.(核心工具组件)
  • Hadoop Distributed File System (HDFS™) : A distributed file system that provides high-throughput access to application data.(分布式存储)
  • Hadoop YARN: A framework for job scheduling and cluster resource management.(分布式资源管理)
  • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.(分布式计算)

Apache中和Hadoop相关的其他项目

  • Ambari™:Hadoop集群的供应、管理和监控管理工具
  • Avro™:数据序列化系统
  • Cassandra™:开源分布式NoSQL数据库系统
  • Chukwa™:数据收集系统
  • HBase™:一个分布式的、面向列的开源数据库
  • Hive™:数据加工和仓库管理
  • Mahout™:一些经典的机器学习的算法的开源项目
  • Ozone™:分布式文件对象存储系统
  • Pig™:基于Hadoop的大规模数据分析平台
  • Spark™:专为大规模数据处理而设计的快速通用的计算引擎
  • Submarine:一个端到端的机器学习平台
  • Tez™:支持DAG作业的开源计算框架
  • ZooKeeper™:分布式协调调度框架

image.png

THE END.