[HADOOP] 基础概念了解

140 阅读3分钟

大数据框架的使用

  • 框架的作用及其特性
  • 命令的使用
  • API的调用
  • 多框架之间的交互
  • 基本原理?分布式存储 分布式计算(后面出来了spark,解决了hadoop计算慢的问题,对实时数据表现的不太好,后面又出现了flink)
  • 基于所了解的原理,对其进行优化

大数据的5大特性

  • 高速:数据产生的速度非常快
  • 大量:数据量会达到TB级以上
  • 多样化:数据类型很多。半结构化数据可以转为结构化数据 分析来说,一般处理的数据是以结构化数据为主,对其进行关联分析。
  • 价值:从数据中挖掘业务价值
  • 真实:所有的数据在历史发展中真实存在过的,记录数据产生的轨迹

应用场景

  • 交通行业
    • 比如在分析交通流量的时候,可以实现对交通道路的实时监控包括车辆的速度、数量等等,可以帮助交通管理部门进行交通调度和规划
  • 医疗行业
  • 金融保险行业
    • 大智慧 证券
  • 工业领域
    • 汽车 - 新能源
    • 电池 - 使用状态数据
    • 建筑行业 -
  • 零售业

大数据处理流程

    1. 数据采集:数据来源一般都是产生于传统的业务系统,从业务系统系统中采集然后存到大数据平台 hadoop,这里需要一些专门的工具 如datachat、sqoop等。
    1. 数据存储:存储解决方案可以部署在本地,也可以部署在云端。根据需求来指定存储的形式等。
    1. 数据分析:对数据处理的过程

名词解释

  • apache是专门为支持开源项目而办的一个非赢利性组织。
  • 分布式存储:当单台节点存储数据,存储不了时,可以通过多个节点进行存储,当数据被拆分到多个节点时:
    1. 需要对数据的信息(某个数据的存放位置)进行管理
    2. 当存数据时,自动判断当前数据应该存放在哪个节点上
    3. 当读取数据时,也需要自动判断当前数据应该存放在哪些节点上
    4. 存储风险时,需要对数据进行备份,备份的策略?
  • 分布式计算:对于单个节点的资源,需要将数据分发到多个节点,进行逻辑计算,计算主要需要两类资源(cpu、内存):(此问题在框架中已经帮我们实现)
    1. 数据如何分发
    2. 计算的结果如何进行统一
    3. 计算资源如何分配

谷歌的三篇论文

  • Google FS -> HDFS
  • MapReduce -> mapreduce
  • BigTable 查询框架,快速定位数据所在的位置 -> HBase

Hadoop版本

hadoop 已经出现了很多发行版本

  • Apache hadoop (官方版本)
  • Cloudera Hadoop (CDH)
  • HortonWorks(HDP)

Hadoop组件(子模块)

  • HDFS:分布式存储
  • Mapreduce:分布式计算
  • Yarn:资源调度平台,在hadoop1.x版本没有yarn组件,它是和mapreduce耦合在一起的。资源包括内存和cpu