[HADOOP] 基础概念了解

2024-01-31 140 阅读3分钟

大数据框架的使用

框架的作用及其特性
命令的使用
API的调用
多框架之间的交互
基本原理？分布式存储分布式计算(后面出来了spark，解决了hadoop计算慢的问题，对实时数据表现的不太好，后面又出现了flink)
基于所了解的原理，对其进行优化

大数据的5大特性

高速：数据产生的速度非常快
大量：数据量会达到TB级以上
多样化：数据类型很多。半结构化数据可以转为结构化数据分析来说，一般处理的数据是以结构化数据为主，对其进行关联分析。
价值：从数据中挖掘业务价值
真实：所有的数据在历史发展中真实存在过的，记录数据产生的轨迹

应用场景

交通行业
- 比如在分析交通流量的时候，可以实现对交通道路的实时监控包括车辆的速度、数量等等，可以帮助交通管理部门进行交通调度和规划
医疗行业
金融保险行业
- 大智慧证券
工业领域
- 汽车 - 新能源
- 电池 - 使用状态数据
- 建筑行业 -
零售业

大数据处理流程

1. 数据采集：数据来源一般都是产生于传统的业务系统，从业务系统系统中采集然后存到大数据平台 hadoop，这里需要一些专门的工具如datachat、sqoop等。
1. 数据存储：存储解决方案可以部署在本地，也可以部署在云端。根据需求来指定存储的形式等。
1. 数据分析：对数据处理的过程

名词解释

apache是专门为支持开源项目而办的一个非赢利性组织。
分布式存储：当单台节点存储数据，存储不了时，可以通过多个节点进行存储，当数据被拆分到多个节点时：
1. 需要对数据的信息(某个数据的存放位置)进行管理
2. 当存数据时，自动判断当前数据应该存放在哪个节点上
3. 当读取数据时，也需要自动判断当前数据应该存放在哪些节点上
4. 存储风险时，需要对数据进行备份，备份的策略？
分布式计算：对于单个节点的资源，需要将数据分发到多个节点，进行逻辑计算，计算主要需要两类资源（cpu、内存）：（此问题在框架中已经帮我们实现）
1. 数据如何分发
2. 计算的结果如何进行统一
3. 计算资源如何分配

谷歌的三篇论文

Google FS -> HDFS
MapReduce -> mapreduce
BigTable 查询框架，快速定位数据所在的位置 -> HBase

Hadoop版本

hadoop 已经出现了很多发行版本

Apache hadoop （官方版本）
Cloudera Hadoop （CDH）
HortonWorks（HDP）

Hadoop组件（子模块）

HDFS：分布式存储
Mapreduce：分布式计算
Yarn：资源调度平台，在hadoop1.x版本没有yarn组件，它是和mapreduce耦合在一起的。资源包括内存和cpu