一文带你了解什么是大数据

367 阅读6分钟

首先大数据体现在数据大

2011年,中国互联网行业持有数据总量达到1.9EB(1EB字节相当于10亿GB) 2011年,全球被创建和复制的数据总量为1.8ZB(1.8万亿GB) 2015年,全球被创建和复制的数据总量达到8.6ZB 2020年,全球电子设备存储的数据将暴增达到40ZB

那么,这些庞大的数据都来自哪里?

随着全球数字化、网络化进程加快,互联网应用于各行各业,累积的数据量越来越大。这些数据都来源于我们日常生活的点滴,汇聚成BIGDATA。

大数据

大数据的特征是什么?

大数据不仅仅是数据的大量化,而且还包括快速化多样化价值化

Volume—数量大

根据IDC作出的估测,数据一直都在以每年**50%**的速度增长,也就是说每两年就增长一倍(大数据摩尔定律

Velocity—速度快

1秒定律:即庞大的数据量要在1秒内处理完毕,才会对业务产生应有的价值。这一点也是和传统的数据挖掘技术有着本质的不同。

Variety—多样化

大数据是由结构化和非结构化数据组成的

  • 10%的结构化数据,存储在数据库中
  • 90%的非结构化数据,它们与人类信息密切相关

非结构化数据类型多样:邮件、视频、微博、手机呼叫、网页点击等等

Value—价值

价值密度低,商业价值高。 连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值。

大数据能做什么?

大数据是一种新的能力

他所代表的是与传统“小数据”,完全不同的一种思维模式,在这里不要求精确的答案,要求的是一种宏观上的思考能力,单个数据并没有价值,但越来越多的数据累加,量变就会引起质变。 这种新的能力有着传统数据分析和数据存储所无法匹敌的优势,从MB级的数据到PB级的数据,所要求的存储和计算是需要从底层开始的完全重构,这就代表了一种新的能力。

大数据的应用

通过对大量数据的分析,我们可以预测一种趋势,可以分析产品的受欢迎程度,可以实现市场经济的宏观调控,可以建立智慧交通智慧家居,可以做到广告的精准投放,等等…… 大数据应用

小结

总结起来,大数据是一种对数据的事后比较和实时处理。 大数据分析的三个特征:

  • 全样而非抽样
  • 效率而非精确
  • 相关而非因果

大数据与相关技术的爱恨情仇

从数据库到大数据

== 池塘捕鱼(数据库)vs.大海捕鱼(大数据)==

大数据与云计算

数据规模

"池塘"和"大海"最容易发现的区别就是规模。"池塘"规模相对较小, 即便是先前认为比较大的“池塘”,譬如 VLDB(Very Large Database),和"大海"XLDB(Extremely Large Database)相比仍旧偏小。"池塘"的处理对象通常以 MB 为基本单位,而"大海"则 常常以GB,甚至是 TB、PB 为基本处理单位。

数据类型

过去的"池塘"中,数据的种类单一,往往仅仅有一种或少数几种,这 些数据又以结构化数据为主。而在"大海"中,数据的种类繁多,数以千计,而这些数据又 包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。

模式(Schema)和数据的关系

传统的数据库都是先有模式,然后才会产生数据。这 就好比是先选好合适的"池塘",然后才会向其中投放适合在该"池塘"环境生长的"鱼"。 而大数据时代很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随 着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类 和数量都在不断的增长。鱼的变化会使大海的成分和环境处于不断的变化之中。

处理对象

在"池塘"中捕鱼,"鱼"仅仅是其捕捞对象。而在"大海"中,"鱼" 除了是捕捞对象之外,还可以通过某些"鱼"的存在来判断其他种类的"鱼"是否存在。也 就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助 解决其他诸多领域的问题

大数据与云计算

硬币的正反面

大数据与云计算是密切相关、相辅相成的,二者的关键技术是共享的,“云计算”出现的更早一点

云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,同时也是大数据的关键技术

大数据和云计算的关系就像一枚硬币的正反面一样密不可分,大数据无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

一个栗子 他俩之间的关系你可以这样来理解,云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的。

目标不一致

  • 发现价值 vs 节省IT成本
  • 云计算更侧重“计算模式”,大数据更侧重“数据资源”

大数据所带来的挑战

存储

在实际生产中,有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量。 这些具有很强异构性的数据如何有效存储成为一个挑战。

处理

随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。 需要面对的是:

  • 数据处理的实时性(Timeliness)
  • 动态变化环境中索引的设计
  • 先验知识的缺乏

reference

数据库和大数据 大数据与云计算