202204-05-大数据综述

265 阅读10分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路

本文是我在掘金平台发表于2022年4月份的,从发表最初累计第5篇博客,希望大家关注我,我将会持续在后端和大数据等领域进行书写更多的文章。

背景

距离我研究生毕业还有几个月左右就要结束了,我承认在我读计算机研期间,缺乏对计算机行业的产业把握,很多方向都是迷迷糊糊的,最近从想象中对大数据领域比较感兴趣,以后也想就此行业可能从业,想了解一下大数据行业的动态。因为考虑到,大数据领域是一个比较成熟的行业,它处于一个中间层技术支撑,涉及内容也比较广,未来的就业领域可选的比较多,比较适合我现在犹豫不决,看不清的状态。此外,我本科并非计算机科班出身,对计算机底层的研发也不是很感兴趣,比如数据库技术等等。就我个性而言,我想以后做偏业务一点的东西,所以特地来调研一下大数据领域的东西。

调研方法

1.阅读文献综述,目前的主要方法

2.结合自己之前的实习经历进行回忆

引言

说到大数据,我们脑海里冒出来就是Hadoop, Hbase, Kafka,但是他们都是比较局限于具体的技术实现,而我对到底什么是大数据行业,这个行业如何应用和落地还缺乏一个感性的认识,因此上开始进行一个简单的调研和学习,力图大致了解其背后的前因后果,通过过去现在,去观察将来的走势,通过知道很多技术的本质去明白其落地和变现的方法。

大数据的定义和特点

什么是大数据?随着网络的发展,海量存储技术的发展,采集端的增加,数据增加呈指数增加,从而带来了一系列的新挑战和新技术,这种现象和对应的技术统称为大数据。

大数据的几个特点

大数据业界公认有4个特性,简称4个V,Volume(大容量),Variety(种类多),Velocity(速度快),Value(价值密度低)。大容量指的是数据因为数据源很多,比如大量用户的行为数据,比如定期采集的监控数据。种类多指的是大数据的数据类型很多,数据不同于以往数据库里那么规整的结构,甚至不限于文本(普通文本和有格式的文本如PDF等),包括音视频。速度快指的是大数据处理要求很快,不能等几天才出结果。而价值密度低指的是因收集的信息太多了,没有过滤和压缩就直接存进来了,想要挖掘出有用的信息就像沙里淘金一样辛苦。

大数据处理流程

大数据流程一般分为4个步骤,分别是数据采集、数据处理与集成、数据分析、数据解释。

数据采集即原始数据的收集。例如用户行为,用户主动填写的数据,传感器采集数据,医学仪器检查得到的数据等。

数据处理即把数据进行清洗,去噪音,聚合,格式转换,补全,压缩等操作,提升数据的完整度和可信度,数据集成指的是数据的存放,方便后续的查询分析等。

数据分析就是采用一些手段,比如数据挖掘,基于机器学习的智能算法等找出数据的规律,从而发现客观事物的联系和特征。

数据解释就是通过可视化等等方便用户观察的手段来展示数据分析得到的结果,从而最终实现发现知识、辅助决策的目的。

大数据的应用

工业大数据

工业大数据研究的是大数据技术在工业界的应用,是制造业信息化的重要手段。

制造业本身有很多采集数据的传感器等仪器,因此制造全流程数据本身应该并不稀缺。难就难在企业是否能够共享和有效采集市场数据。

工业大数据可以对制造全流程、全产业链、产品生命周期数据进行信息获取、支撑分析和决策。《中国制造2025》里说明,我国制造业的特点是劳动密集型为主,资源消耗高,技术含量低的比重大,实体工厂和实体制造业技术升级迫在眉睫。

在2015年美国通用电气推出了面向工业数据分析的Predix,2016年、2017年德国汉诺威举办的工业博览会上,一些比较有名的公司也展出了自己的工业互联网平台,包括西门子,ABB。施耐德公司和三一重工推出了自己的企业信息化平台。在参考[2]文中,对这些平台并没有详细介绍,至于他们是否真的和大数据有关,又和传统的制造业的信息化系统有多大区别,这个还不好说。

传统制造业的很多核心数据都属于数字资产,但是有可能因为数据量过于庞大而难以被挖掘有效信息,因此大数据技术的出现,可能有助于其从这些资产中重新发现有价值的信息。

关于工业大数据的用处和其他已有系统的关系,参考[2]也进行了简单的论述,个人以为比较精彩,因此摘抄一段分享出来。

从 数 据流 动 的视 角来 看 ,企 业信 息化解 决了 工 业 领 域 “有 数 据 ”的 问题 ,网络 化 解 决 了 “能 流 动 ”的问题 ,工 业 大 数 据  要解 决 数 据 “智 能化 ”的问题 。“信 息化 ”  能 够 把 正 确 的 数 据 在 正 确 的 时 间以 正 确  的 方 式 传 递 给 正 确 的人 和 机 器 , “智 能  化 ”则 把 海 量 的工 业 数 据 转化 为信 息 ,信  息 转化 为知 识 ,知识 转 化 为 科 学 决 策 ,以  应 对 和 解 决 制 造 过 程 的复 杂 性 和 不 确 定  性 等 问题 ,其 目标 在 于不 断提 高制造资源的配 置 效率 。 

我可以感受到一点,大数据带来的根本的区别是比传统信息系统更智能、更全面、更及时的信息反馈,从而让企业运转更加的灵活和有活力。

商业大数据

这里,我认为最经典的,比如分析客户的行为数据,经典的比如一个银行分析一个用户的储蓄和提现习惯,从而给他推荐合适的理财产品,比如基金或者债券,或者可以优化的储蓄方案。

金融大数据中,以征信机构为例,可能直接存储着公民和法人的消费记录,报税纳税情况,贷款情况,租赁情况等各种各样的社会经济活动数据,从而可以判断一个人的信用情况,从而提供给银行结构作为决策辅助信息。

然而,商业大数据里离我们普通人最近的推荐算法,说到底,背后还是大数据为支撑的,比如用户的行为习惯的收集,比如浏览了哪些,搜索了哪些,点击了哪些,从而可以让算法分析出你的爱好,从而针对你的爱好进行推荐,从而根据推荐内容中你点击的内容再进行分析和第二轮的推荐和迭代,当充分对你的爱好了解清楚之后,也就是你以为你把推荐算法调教好,它能够推荐出你喜欢的东西之后,推荐算法就开始给你推荐广告和其他推广流量的内容了(大笑)。推荐算法是大数据的一个应用业务,至少可以说是一个底层支持技术。

医疗大数据

医疗领域在结合人工智能方面也有重大的应用,人工智能的背后离不开大数据的支撑。

医疗仪器产生的数据量大,类型多,而且随着仪器的升级换代和对信息的需求,和过去相比,相同类型的病理分析检查数据也增加了很多倍。

国家在十二五规划中提出,建立国家级,省级,地方级三级卫生信息平台,建设电子病历和电子档案两个基础数据库。

大数据技术

经典的代表有开源系统Hadoop,其核心编程模型MapReduce,它代表一种分布式批量计算系统。如今比较流行的还有流式计算系统,它可以提供快速响应的服务能力,针对大数据提供快速的响应和计算能力。

经典的分布式文件存储系统代表为GFS,HDFS。

经典的大数据数据库,其设计超越了传统的关系型数据库的设计规则,代表例如Bigtable,其基础是GFS。

上述几种基础的基石则离不开云计算技术,其内涵包含三种意思,分别是IAAS,PAAS,SAAS,即基础设施服务,平台服务和软件服务,大的云计算公司把这些原本需要公司自行搭建的基础运维设施构建成对外提供收取费用的服务。

大数据带来的挑战

个人隐私。有些大数据的利用和收集已经明显的侵犯了个人的隐私,这是一个急需解决的问题。如何脱敏是大数据领域需要关注的问题。

大数据的处理和集成问题。大数据因为其量大,而面临着清洗数据的难题,以及如何存储的问题。数据清洗必须更加的专业和细致,既要保证能够尽可能的排除噪音和垃圾信息,又要保证不能清洗掉有用的信息,既要保证信息完整,又不能过于复杂和缓慢。现有的大数据存储技术正在不断发展,其本质是没有一种通用的可以解决各种场景的存储解决方法。数据的集成难点在于,如何将不同的数据统筹起来利用和分析,从而发现其关联。

大数据的架构问题。不同的业务的需求不一样,没有一种万能的或者绝对适合某一个领域的架构,还是需要从业者能够不断的根据自身的需求去探索和发现,并在实践中检验其落地效果。

参考

[1]刘智慧,张泉灵,浙江大学,大数据技术综述研究,浙江大学学报(工业版),2014

[2]王建民,清华大学软件学院,工业大数据技术综述,2017