慕课体系大数据工程师2023版完结无密
//xia仔k:百度网盘
大数据是指海量数据或巨量数据,其范围宏大到无法经过目前主流的计算机系统在合理时间内获取、存储、管理、处置并提炼以协助运用者决策。
大数据的4V特征,即Variety(多样化)、Volume(大量化)、Velocity(快速化)、Value(价值密度低)。如下图所示。其中,Variety表示来源多和格式多,数据能够来源于搜索引擎、社交网络、通话记载、传感器等等,这些数据要么以构造化方式存储,要么以非构造化数据存储;Volume表示数据量比拟大,从TB级别,跃升到PB级别。特别是在挪动互联时期,视频、言语等非构造化数据快速增长;Velocity表示数据存在时效性,需求快速处置,并得到结果出来,这一点也是和传统的数据发掘技术有着实质的区别;Value表示大量不相关信息,不经过处置则价值较低,属于价值密度低的数据。
大数据处置流程
普通的大数据处置流程都有以下几个过程:数据采集、数据存储、数据处置、数据展示。如下图所示。
在大数据时期,由于数据品种多,数据大,从构造化的数据到非构造化的数据,数据采集的方式也变得愈加复杂而多样。
当存储技术的开展变得步履踉跄,赶不上数据开展的速度时,散布式存储成为了必然选择,非构造型数据也对存储格式提出了新的请求。层出不穷的数据源也使得数据量产生了井喷似的迅猛增长。此时散布式存储与NoSQL的降生回应了这样的需求,处理了大数据存储的基本难题。
数据处置包括数据计算、剖析,这局部是大数据技术的中心,本文剩余局部将细致引见这局部。数据展现指的是经过提供报表等可视化界面反响目前平台或业务运转的各项指标。
大数据的演进
提到大数据技术,最根底和中心的仍是大数据的剖析和计算。在2017年,大数据剖析和计算技术仍旧在飞速的开展,无论老权力Hadoop还是当红小生Spark,亦或是人工智能,都在继续本人的开展和迭代。
目前绝大局部传统数据计算和数据剖析效劳均是基于批量数据处置模型:运用ETL系统或OLTP系统停止结构数据存储,在线的数据效劳经过结构SQL言语访问上述数据存储并获得剖析结果。这套数据处置的办法随同着关系型数据库在工业界的演进而被普遍采用。但在大数据时期下,随同着越来越多的人类活动被信息化、进而数据化,越来越多的数据处置请求被实时化、流式化。Andrew NG提醒大数据将来开展的趋向就是人工智能。下面将对批量计算、流式计算以及人工智能停止细致引见,其中人工智能局部将在下一期中引见。