一、大数据基础
①大数据的四个特点:
- 大量(Volume)
- 高速(Velocity)
- 多样(Variety)
- 低价值密度(Value)
②大数据应用场景:
- 个性化推荐(短视频、商品、广告、精准投放)
- 零售(分析用户消费习惯,提升零售销量)
- 物流仓储、保险、金融、房产等
- 人工智能+5G+物联网+虚拟与现实
③大数据部门间业务流程:
产品人员提出需求(统计销售额、交易额、各地区销售TopN等)----》数据部门搭建数据平台、分析数据指标等---》数据可视化
④大数据部门组织结构:
二、Hadoop入门
①什么是Hadoop
- Apache基金会所开发的分布式系统基础架构
- 解救数据的存储和分析计算问题
- Hadoop更多的指Hadoop生态圈
②Hadoop发展历史
略
③Hadoop三大发行版本
Apache()、Cloudera(CDH 2008)、Hortonworks(HDP、CD[被Cloudera收购后产物])
④hadoop四大优势
- 高可靠性:Hadoop底层维护多个数据副本,即使某个计算元素或存储出现故障,也不会导致数据丢失。
- 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
- 高效性:在MapReduce的思想下,Hadoop并行工作,拥有很快的任务处理速度。
- 高容错性:能够自动将失败的任务重新分配。
⑤Hadoop版本间区别
- Hadoop1.x:
- Hadoop2.x:
- Hadoop3.x: 组成上没有区别
⑥HDFS架构概述:
- 什么是HDFS: Hadoop Distributed File System简称HDFS,是一个分布式文件系统。如图示:
- 详细说明: Ⅰ. NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 Ⅱ. Data Node(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 Ⅲ. Secondary NameNode(2nn):每隔一段时间对nn元数据备份
⑦Yarn架构概述
1.什么是Yarn: Yarn(Yet Another Resource Negotiator),是另一种资源协调者,是Hadoop的资源管理器。
2.Yarn详细说明: Ⅰ、ResoureManger(RM):整个集群资源(内存CPU等)的核心。 Ⅱ、NodeManager(NM):单个节点服务器资源核心。 Ⅲ、ApplicationMaster(AM):单个任务运行核心 Ⅳ、Container:容器,相当于独立的服务器,封装了任务运行所需资源,如内存、CPU、磁盘、网络等。
⑧MapReduce架构概述
1.什么是MapReduce: MapReduce将计算分为两个阶段:Map和Reduce。 Ⅰ、Map阶段并行处理输入数据。 Ⅱ、Reduce阶段对Map结果进行汇总。 2.MapReduce详细说明:
⑨HDFS、YARN、MapReduce之间的关系
⑩大数据技术生态体系
1.生态体系详解: Ⅰ、数据库(结构化数据B):Sqoop数据传递(①)-->HDFS文件存储、HBase非关系型数据库(②)-->YARN资源管理(③)-->MapReduce离线计算、{Hive数据查询}(④)-->Oozie任务调度(⑤) Ⅱ、文件日志(半结构化数据B):Flume日志收集(①)-->HDFS文件存储、HBase非关系型数据库(②)-->YARN资源管理(③)-->Spark Core内存计算、{Spark Mlib数据挖掘、Spark Sql数据查询}(④)-->Azkaban任务调度(⑤)。 Ⅲ、视频、ppt等(非结构化数据B):Kafka消息队列(①、②)-->Storm实时计算、{Spark Streaming实时计算、Flink}(④) Ⅳ、B数据来源层:①数据传输层、②数据存储层、③资源管理层、④数据计算层、⑤任务调度层、⑥业务模型层(业务模型、数据可视化、业务应用等) Ⅴ、 Zookeeper贯穿①~⑤,负责数据平台配置和调度。
2.推荐系统框架图:
学习时长:1H20Min 学习时间:2022-8-23 15:43 至 2022-8-23 17:01