大数据框架的使用
- 框架的作用及其特性
- 命令的使用
- API的调用
- 多框架之间的交互
- 基本原理?分布式存储 分布式计算(后面出来了spark,解决了hadoop计算慢的问题,对实时数据表现的不太好,后面又出现了flink)
- 基于所了解的原理,对其进行优化
大数据的5大特性
- 高速:数据产生的速度非常快
- 大量:数据量会达到TB级以上
- 多样化:数据类型很多。半结构化数据可以转为结构化数据 分析来说,一般处理的数据是以结构化数据为主,对其进行关联分析。
- 价值:从数据中挖掘业务价值
- 真实:所有的数据在历史发展中真实存在过的,记录数据产生的轨迹
应用场景
- 交通行业
- 比如在分析交通流量的时候,可以实现对交通道路的实时监控包括车辆的速度、数量等等,可以帮助交通管理部门进行交通调度和规划
- 医疗行业
- 金融保险行业
- 大智慧 证券
- 工业领域
- 汽车 - 新能源
- 电池 - 使用状态数据
- 建筑行业 -
- 零售业
大数据处理流程
-
- 数据采集:数据来源一般都是产生于传统的业务系统,从业务系统系统中采集然后存到大数据平台 hadoop,这里需要一些专门的工具 如datachat、sqoop等。
-
- 数据存储:存储解决方案可以部署在本地,也可以部署在云端。根据需求来指定存储的形式等。
-
- 数据分析:对数据处理的过程
名词解释
- apache是专门为支持开源项目而办的一个非赢利性组织。
- 分布式存储:当单台节点存储数据,存储不了时,可以通过多个节点进行存储,当数据被拆分到多个节点时:
- 需要对数据的信息(某个数据的存放位置)进行管理
- 当存数据时,自动判断当前数据应该存放在哪个节点上
- 当读取数据时,也需要自动判断当前数据应该存放在哪些节点上
- 存储风险时,需要对数据进行备份,备份的策略?
- 分布式计算:对于单个节点的资源,需要将数据分发到多个节点,进行逻辑计算,计算主要需要两类资源(cpu、内存):(此问题在框架中已经帮我们实现)
- 数据如何分发
- 计算的结果如何进行统一
- 计算资源如何分配
谷歌的三篇论文
- Google FS -> HDFS
- MapReduce -> mapreduce
- BigTable 查询框架,快速定位数据所在的位置 -> HBase
Hadoop版本
hadoop 已经出现了很多发行版本
- Apache hadoop (官方版本)
- Cloudera Hadoop (CDH)
- HortonWorks(HDP)
Hadoop组件(子模块)
- HDFS:分布式存储
- Mapreduce:分布式计算
- Yarn:资源调度平台,在hadoop1.x版本没有yarn组件,它是和mapreduce耦合在一起的。资源包括内存和cpu