Hadoop学习笔记--基础部分

203 阅读3分钟

一、大数据基础

①大数据的四个特点:

  1. 大量(Volume)
  2. 高速(Velocity)
  3. 多样(Variety)
  4. 低价值密度(Value)

②大数据应用场景:

  1. 个性化推荐(短视频、商品、广告、精准投放)
  2. 零售(分析用户消费习惯,提升零售销量)
  3. 物流仓储、保险、金融、房产等
  4. 人工智能+5G+物联网+虚拟与现实

③大数据部门间业务流程:

产品人员提出需求(统计销售额、交易额、各地区销售TopN等)----》数据部门搭建数据平台、分析数据指标等---》数据可视化

④大数据部门组织结构:

image.png

二、Hadoop入门

①什么是Hadoop

  1. Apache基金会所开发的分布式系统基础架构
  2. 解救数据的存储和分析计算问题
  3. Hadoop更多的指Hadoop生态圈

②Hadoop发展历史

③Hadoop三大发行版本

Apache()、Cloudera(CDH 2008)、Hortonworks(HDP、CD[被Cloudera收购后产物])

④hadoop四大优势

  1. 高可靠性:Hadoop底层维护多个数据副本,即使某个计算元素或存储出现故障,也不会导致数据丢失。
  2. 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
  3. 高效性:在MapReduce的思想下,Hadoop并行工作,拥有很快的任务处理速度。

image.png

  1. 高容错性:能够自动将失败的任务重新分配。

image.png

⑤Hadoop版本间区别

  1. Hadoop1.x:

image.png

  1. Hadoop2.x:

image.png

  1. Hadoop3.x: 组成上没有区别

⑥HDFS架构概述:

  1. 什么是HDFS: Hadoop Distributed File System简称HDFS,是一个分布式文件系统。如图示:

image.png

  1. 详细说明: Ⅰ. NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 Ⅱ. Data Node(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 Ⅲ. Secondary NameNode(2nn):每隔一段时间对nn元数据备份

⑦Yarn架构概述

1.什么是Yarn: Yarn(Yet Another Resource Negotiator),是另一种资源协调者,是Hadoop的资源管理器。

image.png

2.Yarn详细说明: Ⅰ、ResoureManger(RM):整个集群资源(内存CPU等)的核心。 Ⅱ、NodeManager(NM):单个节点服务器资源核心。 Ⅲ、ApplicationMaster(AM):单个任务运行核心 Ⅳ、Container:容器,相当于独立的服务器,封装了任务运行所需资源,如内存、CPU、磁盘、网络等。

⑧MapReduce架构概述

1.什么是MapReduce: MapReduce将计算分为两个阶段:Map和Reduce。 Ⅰ、Map阶段并行处理输入数据。 Ⅱ、Reduce阶段对Map结果进行汇总。 2.MapReduce详细说明:

image.png

⑨HDFS、YARN、MapReduce之间的关系

image.png

⑩大数据技术生态体系

1.生态体系详解: Ⅰ、数据库(结构化数据B):Sqoop数据传递(①)-->HDFS文件存储、HBase非关系型数据库(②)-->YARN资源管理(③)-->MapReduce离线计算、{Hive数据查询}(④)-->Oozie任务调度(⑤) Ⅱ、文件日志(半结构化数据B):Flume日志收集(①)-->HDFS文件存储、HBase非关系型数据库(②)-->YARN资源管理(③)-->Spark Core内存计算、{Spark Mlib数据挖掘、Spark Sql数据查询}(④)-->Azkaban任务调度(⑤)。 Ⅲ、视频、ppt等(非结构化数据B):Kafka消息队列(①、②)-->Storm实时计算、{Spark Streaming实时计算、Flink}(④) Ⅳ、B数据来源层:①数据传输层、②数据存储层、③资源管理层、④数据计算层、⑤任务调度层、⑥业务模型层(业务模型、数据可视化、业务应用等) Ⅴ、 Zookeeper贯穿①~⑤,负责数据平台配置和调度。

image.png

2.推荐系统框架图:

image.png

学习时长:1H20Min 学习时间:2022-8-23 15:43 至 2022-8-23 17:01