这是我参与「第四届青训营」笔记创作活动的第2天

在刚刚入门大数据，对大数据的知识一头雾水，不知道什么是yarn,什么是Hdfs……更不要说一些大数据的生态圈了。于是恶补了一些大数据的基础知识，主要围绕Hadoop展开介绍。

大数据的概念和特点

什么是大数据？

大数据（Big Data）:指无法在一定的时间范围内用常规软件工具进行捕捉、管理和处理的数据，需要新的处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高速增长的和多样化的信息资产。

大数据有哪些特点？

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

NameNode(nn):存储文件的元数据，如文件名称，文件的目录结构，文件属性（生成时间、副本数、文件权限）、以及每个文件的块列表和块所在的DataNode位置等。(相当于老板)
DataNode(dn):在本地文件系统和存储文件块数据，以及块数据的校验和。(数据真正春存储的位置)
Secondary Namenode(2nn):每隔一段时间对NameNode的元数据进行备份。(可以理解为小秘书，一段时间记录备份老板的数据)

Yet Another Resource Negotiator简称YARN ，另一种资源协调者，是Hadoop的资源管理器。

通过上面的图可以清楚的看到yarn中各个资源是如何分配管理的。

MapReduce将计算过程分为两个阶段：Map和Reduce

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

文章中许多为本人学习中所记录的笔记，在这里感谢尚硅谷教育的讲解，本人把所学习的知识整理记录下来，以此纪念学习之路~