graph TD
大数据处理的基本流程
数据采集 --> 数据预处理 -->数据处理与分析 --> 存储
一、数据采集
1.概念
数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采集技术广泛应用在各个领域。比如摄像头,麦克风都是数据采集工具。
数据采集多数采用网络爬虫采集,网络爬虫就像蜘蛛网一样,一张很大的网,能捕捉到经过的所有东西,这也就意味着采集到的数据量很大很杂。在数据收集过程中,数据源会影响大数据质量的真实性、完整性数据收集、一致性、准确性和安全性。
2.数据采集的三大特点
- 全面性 数据量足够具有分析价值、数据面足够支撑分析需求。 比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。
- 多维性 数据更重要的是能满足分析需求。 灵活、快速自定义数据的多种属性和不同类型,从而满足不同的分析目标。 比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。 从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。
- 高效性 高效性包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。 基于以上三点,我们看如何让数据采集更准确、分析更有用以及团队内部更高效。
二、数据预处理
1.预处理的原因
大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或异构的数据库、文件系统、服务接口等,易受到噪声数据、数据值缺失、数据冲突等影响,因此需首先对收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性与价值性
2.预处理的用处
大数据的预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容,可以大大提高大数据的总体质量,是大数据过程质量的体现
- 数据清理技术 有利于提高大数据的 一致性、 准确性、 真实性 和 可用性
- 数据集成 有利于提高大数据的 完整性、 一致性、 安全性 和 可用性
- 数据归约 有利于提高大数据的价值密度
- 数据转换处理有利于提高大数据的一致性和可用性
三、数据处理与分析
1.数据处理
大数据的分布式处理技术与存储形式、业务数据类型等相关,针对大数据处理的主要计算模型有MapReduce分布式计算框架、分布式内存计算系统、分布式流计算系统等
2.数据分析
四、存储
模数转化