本文已参与「新人创作礼」活动,一起开启掘金创作之路。
1.1 Hadoop是什么(2.7.7)
Hadoop 是一个由Apache基金会所开发的分布式系统基础架构 。
主要解决:海量数据的存储和海量数据的分析计算问题。
广义上来说,Hadoop通常是一个更广泛的概念——Hadoop生态圈
1.2 Hadoop发展史
Hadoop 创始人 Doug Cuting,最初是为了实现与Google类似的全文搜索功能。
在Lucene框架上进行了优化对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量速度慢
学习Google在大数据方面的三篇论文:
GFS --》 HDFS Map Reduce -》MRBigTable -》HBase
Hadoop三大发行版本(了解)
Hadoop三大发行版本:
Apache、
Cloudera、
Hortonworks
Apache:版本最原始(最基础)的版本,对于入门学习最好。2006
Cloudera:内部集成了很多大数据框架,对应产品CDH,在大型互联网企业中用的较多。2008
Hortonworks:文档较好,对应产品HDP。2011Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP
1.3 Hadoop优势(4高)
- 高可靠:Hadoop底层维护多个数据副本,即使Hadoop某个计算元素或存储出现故障,也不会导致数据丢失
- 高扩展:在集群间分配任务数据,方便的扩展数以千计的节点。
- 高效性:在MapReduce的思想下,Hadoop是并行工作,以加快任务处理速度。
- 高容错:自动将失败的任务重新分配
1.4 Hadoop组成(重点)
- Hadoop1.X 中,MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
- Hadoop2.X 中,增加了Yarn。Yarn只负责资源的调度。MapReduce负责运算。
- Hadoop3.X中,在组成上没有变化。
1.4.1 HDFS架构概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统
- NameNode(nn):存储文件的元数据。如:文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
- DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
- Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。