Hadoop学习笔记-1.基础知识

383 阅读3分钟

一、大数据的特点(5V特征)

  1. Volume:数据体量大,采集、存储、计算的数据量大;
  2. Variety:种类来源多样化,结构化、半结构化、非结构化数据,文本、图片、音频、视频数据;
  3. Value:低价值密度,数据海量但是价值密度低;
  4. Velocity:速度快,数据增长、获取、处理的速度快;
  5. Veracity:数据的质量,数据的准确性和可信赖度;

二、大数据业务分析的基本步骤

  1. 明确分析的目的和思路
  2. 数据收集
  3. 数据处理
  4. 数据分析
  5. 数据展现
  6. 报告撰写

三、分布式和集群的区别

  • 分布式:多台机器,每台机器部署不同的组件。比如多台机器分别部署系统a,b,c;
  • 集群:多台机器,每台机器部署相同组件。比如多台机器都部署a,提高a系统的性能;

四、分布式系统需要具备的技术

1、负载均衡

  • 将负载(工作任务)进行平衡、分摊到多个操作单元上进行运行
  • 单个无法处理所有任务,多个一起处理
  • 更侧重于集群的概念,因为多个操作单元上都是干的同一个事情,只是被分成了多份

2、故障转移

  • 当活动的服务或者应用意外终止时,快速启用备份的服务器、系统、硬件或者网络接替他们的工作
  • 故障转移系统也称之为容错系统,所谓容错指的是可以容忍错误的发生
  • 故障转移的核心是设置备份,出现故障时,主备切换
  • 主备切换的前提是数据状态保持一致
  • 故障转移极大的降低了单点故障造成的影响,基本在没被察觉到的时候,就完成了主备切换
  • 保证了业务的连续

3、伸缩性

  • 伸缩性也叫弹性,可扩展性
  • 指系统可以根据需求动态的扩容、缩容
  • 比如双十一业务高峰期间,增加服务器;业务低峰期,减少服务器

五、Hadoop特性优点

  1. 扩容能力:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便的扩展到数以千计的节点中;
  2. 成本低:Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,所以成本很低;
  3. 效率高:通过并发数据,Hadoop可以在节点间动态并行的移动数据,速度非常快;
  4. 可靠性:能自动维护多份备份,并且任务失败后会自动重新部署(redeploy)计算任务;

六、Hadoop发行版本

  1. 开源社区版:apache官方版本,优点:更新迭代快;缺点:兼容稳定性不佳
  2. 商业公司发行版:商业公司发行,某些服务需要收费,优点:兼容稳定性好;缺点:收费,版本更新慢

六、Hadoop架构变迁

1、Hadoop 1.0

  • HDFS(分布式文件存储)
  • MapReduce(资源管理和分布式数据处理)

2、Hadoop 2.0

  • HDFS(分布式文件存储)
  • YARN(集群资源管理、任务调度),并且支持其他计算引擎,不再局限于MapReduce
  • MapReduce(分布式数据处理)

3、Hadoop 3.0

相较于2.0,架构组件类似,着重于性能优化

  • 通用
    精简内核、类路径隔离、shell脚本重构
  • Hadoop HDFS
    EC纠删码、多NameNode支持
  • Hadoop MapReduce
    任务本地化优化、内存参数自动推断
  • Hadoop YARN
    Timeline Service V2、队列配置