大数据与Hadoop

204 阅读2分钟

这是我参与更文挑战的第2天 ,活动详情查看更文挑战

大数据的定义

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据的概念--4V+XV

  • 1,数据量大(Volume)
  • 2,类型繁多(Variety )
  • 3,速度快时效高(Velocity)
  • 4,价值密度低(ValueLess )
  • 可变性(Variability)
  • 真实性(Veracity

大数据的概念--数量、类型

image.png

大数据产生模式的三个阶段

  1. 运营式系统阶段 管理信息应用系统

  2. 用户原创内容阶段 WEB 2.0, 微博、微信等

  3. 感知式系统阶段 传感器,物联网

大数据对科学研究的影响

  1. 第一种范式:实验科学
  2. 第二种范式:理论科学
  3. 第三种范式:计算科学
  4. 第四种范式:数据密集型科学

大数据对思维方式的影响

  1. 全样而非采样;
  2. 效率而非准确;
  3. 相关而非因果;

大数据计算模式

  1. 批处理计算;MapReduce
  2. 流计算;Storm,Flink,Spark streaming
  3. 图计算;Pregel,Spark GraphX
  4. 查询分析计算;Dremel,Hive,Impala

Hadoop的定义

Apache 开源软件基金会开发的,运行于大规模普通服务器上的大数据存储、计算、分 析的分布式存储系统和分布式运算框架

Hadoop2.0 由三个部分组成

  • 分布式文件系统 HDFS
  • 资源分配系统 Yarn
  • 分布式运算框架 MapReduce

Hadoop 与谷歌三大论文

image.png

Hadoop 的特点

  1. 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
  2. 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
  3. 高效率(Efficient):通过分发数据,hadoop 可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
  4. 可靠性(Reliable):hadoop 能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。