Hadoop基础知识点简介 | 青训营笔记

186 阅读2分钟

这是我参与「第四届青训营 」笔记创作活动的第2天

2.jpg 在刚刚入门大数据,对大数据的知识一头雾水,不知道什么是yarn,什么是Hdfs……更不要说一些大数据的生态圈了。于是恶补了一些大数据的基础知识,主要围绕Hadoop展开介绍。

大数据的概念和特点

什么是大数据?

大数据(Big Data):指无法在一定的时间范围内用常规软件工具进行捕捉、管理和处理的数据,需要新的处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高速增长的和多样化的信息资产。

大数据有哪些特点?

image.png image.png

image.png

image.png

image.png

Hadoop概述

Hadoop定义

  1. Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  2. 主要解决海量数据的存储和海量数据的计算问题。
  3. 通常指一个更加广泛的概念-Hadoop生态圈。

image.png

Hadoop有哪些优势:

  1. 高可靠性:Hadoop底层维护多个数据的副本,即使Hadooop某个计算元素或存储出现故障也不会导致数据的丢失。
  2. 高扩展性:在集群分配任务数据。可以方便的扩展数以千计的节点。
  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的。以加快任务的处理速度。

Hadoop组成(面试重点)

image.png

HDFS架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。

  1. NameNode(nn):存储文件的元数据,如文件名称,文件的目录结构,文件属性(生成时间、副本数、文件权限)、以及每个文件的块列表和块所在的DataNode位置等。(相当于老板)
  2. DataNode(dn):在本地文件系统和存储文件块数据,以及块数据的校验和。(数据真正春存储的位置)
  3. Secondary Namenode(2nn):每隔一段时间对NameNode的元数据进行备份。(可以理解为小秘书,一段时间记录备份老板的数据)

YARN架构概述

Yet Another Resource Negotiator简称YARN ,另一种资源协调者,是Hadoop的资源管理器。

image.png 通过上面的图可以清楚的看到yarn中各个资源是如何分配管理的。

MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

image.png

HDFS、YARN、MapReduce三者关系

image.png

大数据技术生态体系

image.png

文章中许多为本人学习中所记录的笔记,在这里感谢尚硅谷教育的讲解,本人把所学习的知识整理记录下来,以此纪念学习之路~