Hadoop(一)

76 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

1.1 Hadoop是什么(2.7.7)

Hadoop 是一个由Apache基金会所开发的分布式系统基础架构 。

主要解决:海量数据的存储和海量数据的分析计算问题。

广义上来说,Hadoop通常是一个更广泛的概念——Hadoop生态圈

1.2 Hadoop发展史

Hadoop 创始人 Doug Cuting,最初是为了实现与Google类似的全文搜索功能。

在Lucene框架上进行了优化对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量速度慢

学习Google在大数据方面的三篇论文:

GFS --》 HDFS Map Reduce -》MRBigTable -》HBase

Hadoop三大发行版本(了解)

Hadoop三大发行版本:

Apache、

Cloudera、

Hortonworks

Apache:版本最原始(最基础)的版本,对于入门学习最好。2006

Cloudera:内部集成了很多大数据框架,对应产品CDH,在大型互联网企业中用的较多。2008

Hortonworks:文档较好,对应产品HDP。2011Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP

1.3 Hadoop优势(4高)

  • 高可靠:Hadoop底层维护多个数据副本,即使Hadoop某个计算元素或存储出现故障,也不会导致数据丢失
  • 高扩展:在集群间分配任务数据,方便的扩展数以千计的节点。
  • 高效性:在MapReduce的思想下,Hadoop是并行工作,以加快任务处理速度。
  • 高容错:自动将失败的任务重新分配

1.4 Hadoop组成(重点)

  • Hadoop1.X 中,MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
  • Hadoop2.X 中,增加了Yarn。Yarn只负责资源的调度。MapReduce负责运算。
  • Hadoop3.X中,在组成上没有变化。

1.4.1 HDFS架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统

  • NameNode(nn):存储文件的元数据。如:文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
  • DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
  • Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。