这是我参与「第四届青训营 」笔记创作活动的第2天
在刚刚入门大数据,对大数据的知识一头雾水,不知道什么是yarn,什么是Hdfs……更不要说一些大数据的生态圈了。于是恶补了一些大数据的基础知识,主要围绕Hadoop展开介绍。
大数据的概念和特点
什么是大数据?
大数据(Big Data):指无法在一定的时间范围内用常规软件工具进行捕捉、管理和处理的数据,需要新的处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高速增长的和多样化的信息资产。
大数据有哪些特点?
Hadoop概述
Hadoop定义
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
- 主要解决海量数据的存储和海量数据的计算问题。
- 通常指一个更加广泛的概念-Hadoop生态圈。
Hadoop有哪些优势:
- 高可靠性:Hadoop底层维护多个数据的副本,即使Hadooop某个计算元素或存储出现故障也不会导致数据的丢失。
- 高扩展性:在集群分配任务数据。可以方便的扩展数以千计的节点。
- 高效性:在MapReduce的思想下,Hadoop是并行工作的。以加快任务的处理速度。
Hadoop组成(面试重点)
HDFS架构概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。
- NameNode(nn):存储文件的元数据,如文件名称,文件的目录结构,文件属性(生成时间、副本数、文件权限)、以及每个文件的块列表和块所在的DataNode位置等。(相当于老板)
- DataNode(dn):在本地文件系统和存储文件块数据,以及块数据的校验和。(数据真正春存储的位置)
- Secondary Namenode(2nn):每隔一段时间对NameNode的元数据进行备份。(可以理解为小秘书,一段时间记录备份老板的数据)
YARN架构概述
Yet Another Resource Negotiator简称YARN ,另一种资源协调者,是Hadoop的资源管理器。
通过上面的图可以清楚的看到yarn中各个资源是如何分配管理的。
MapReduce架构概述
MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
HDFS、YARN、MapReduce三者关系
大数据技术生态体系
文章中许多为本人学习中所记录的笔记,在这里感谢尚硅谷教育的讲解,本人把所学习的知识整理记录下来,以此纪念学习之路~