Hadoop（一）本文已参与「新人创作礼」活动，一起开启掘金创作之路。 1.1 Hadoop是什么（2.7.7） Had

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

1.1 Hadoop是什么（2.7.7）

Hadoop 是一个由Apache基金会所开发的分布式系统基础架构。

主要解决：海量数据的存储和海量数据的分析计算问题。

广义上来说，Hadoop通常是一个更广泛的概念——Hadoop生态圈

1.2 Hadoop发展史

Hadoop 创始人 Doug Cuting，最初是为了实现与Google类似的全文搜索功能。

在Lucene框架上进行了优化对于海量数据的场景，Lucene框架面对与Google同样的困难，存储海量数据困难，检索海量速度慢

学习Google在大数据方面的三篇论文：

GFS --》 HDFS Map Reduce -》MRBigTable -》HBase

Hadoop三大发行版本（了解）

Hadoop三大发行版本：

Apache、

Cloudera、

Hortonworks

Apache：版本最原始（最基础）的版本，对于入门学习最好。2006

Cloudera：内部集成了很多大数据框架，对应产品CDH，在大型互联网企业中用的较多。2008

Hortonworks：文档较好，对应产品HDP。2011Hortonworks现在已经被Cloudera公司收购，推出新的品牌CDP

1.3 Hadoop优势（4高）

1.4 Hadoop组成（重点）

1.4.1 HDFS架构概述

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统

NameNode（nn）：存储文件的元数据。如：文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode（2nn）：每隔一段时间对NameNode元数据备份。