大数据初识

219 阅读4分钟

什么是大数据?

“大数据”是一个比较泛化的概念,涵盖了多种技术,是指在一定时间内用常规的软件工具和技术手段对其内容进行抓取,管理和处理的数据集合。

IBM公司将大数据理念定义为“5v”,大量化(volume),多样化(variety),快速化(Velocity),价值(value),Veracity(真实性);(业界囊括为4v,前4个)

大数据某一思想:不重视因果关系,而重视相关关系

大数据发展

阶段时间内容
第一阶段:萌芽上世纪90年代随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。
第二阶段:成熟期本世纪前十年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道
第三阶段:大规模应用期2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高

Google的三驾马车:GFS,MapReduce,BigTable,奠定了大数据技术的基石

谷歌的三篇论文(GFS,MapReduce,BigTable)可以说是影响深远,划分了一个时代

GFS:描述了一个分布式文件系统的设计思路。从交互实体上划分,分布式文件系统有两个基本组成部分,有一个是celit(客户端),一个是Server(服务端)

  • GFS Master节点管理所有的文件系统元数据,命名空间,访问控制信息,文件和块·的映射信息,以及当前块的位置信息
  • GFS存储的文件被默认分割成固定大小的3块,并被交错复制到多个服务器上
  • GFS Master 还管理着系统范围内的活动,比如快服务器的之间的数据迁移
  • GFS Master 与每个块服务器通信(发送心跳报),发送指令,获取状态

MapReduce:采用“分而治之”的思想,把对大规模数据的操作,分发费下一个主节点管理下的各个子节点共同完成,然后整个各个子节点的中间结果,的到最终的计算结果。

BigTable:可以管理结构化数据的分布式存储系统,支持水平的横向扩展,通过使用成千上万的连接服务器,来支持TB,PB量级的数据处理,使数据处理手段更高效。

从传统数据处理到大数据的差异

传统数据DB大数据BigData
数据规模小(常以MB为单位)大(常以GB,TB,PB为单位)
数据类型数据类型单一(常以结构化为主)类型多样(结构化,板结构化,非结构化)
模式与数据的关系先有模式后有数据先有数据后有模式
处理对象数据通过某些数据判断另一类数据

传统数据处理:海量数据的高存储成本,海量批处理不足,流式处理方式缺失,有限的扩展能力,数据资产对外增值

传统框架:小型机+磁阵+商用数据库

Hadoop成为大数据处理的基础,但无法提供实时分析(高价值,高聚合,和实时分析是商业的主要诉求)

实时数据分析成为趋势

内存计算技术解决实时分析技术挑战

Google Dremel利用多级并行执行树解决实时分析挑战,适合实时处理聚集分析

大数据不能做什么?

  • 不能代替管理的决策(大数据只是一个工具,是一种技术手段,最终如何决策,盈利的方向由管理者决定)
  • 不能代替有效的商业模式(不是拥有大数据就一定能盈利,商业模式是由人进行规划的)
  • 不能一次建模终生受用(数据不断在更新,需要模型不断的去学习)
  • 不能代替专家的作用(专家去聚焦关键特征意义重大)

大数据时代的到来,对于个人隐私的泄露,如何储存和安全防范措施,和大数据技术如何运用是个新的挑战,可谓任重而道远。