【大数据】大数据挖掘处理流程概论

165 阅读3分钟

前言

最近获得了一本书,粗略翻了一下,讲的是大数据和机器学习领域的基础知识和基础行业应用,并结合企业的算法库进行实战。当下正好有空,故作整理,以便温故知新。

大数据挖掘处理流程概述

image.png

数据采集

从数据的来源和接口技术看,分为如下几个模块:

数据库采集技术

数据库分为关系型数据库和非关系型数据库两大类。企业会在采集端部署大量数据库,并在数据库之间进行负载均衡和分片,从而完成大量数据的采集。

网络数据采集技术

网络爬虫

  • 分布式网络爬虫工具:Nutch等
  • Java网络爬虫工具:Crawler4j、WebMagic、WebCollector
  • Python爬虫工具:Scrapy

数据包及流量监测/抓取

带宽管理技术

  • DPI(deep packet inspection)
  • DFI(deep/dynamic flow inspection)

系统日志采集技术

由一些大型互联网企业开发,如:

  • Cloudera的Flume
  • Facebook的Scribe

感知设备数据采集技术

通过摄像头、传感器等采集

数据采集接口技术

软件接口api

  • SDK API
  • REST API
  • Web Service
  • 消息发布/订阅服务

开放数据库

顾名思义,就是直接将访问数据库的账号密码授权给对方。其中涉及到的ETL技术:extract、transform、load。

数据预处理

数据清洗

数据清洗是大数据中非常重要的环节,如果数据不加清洗、垃圾数据太多,就算再精确的算法也拟合不出满意的结果。

对于不同的数据可有不同的处理方式:

  • 缺失数据:忽略该记录、手动补充缺失值(、利用均值、利用可能值补等)、采用默认值
  • 噪声数据:分箱、聚类分析、人机结合检测、回归
  • 不一致数据:利用其与外部的关联,手动修正

数据集成

顾名思义就是将来自多个数据源的数据合并为一个统一的数据集合,以下问题值得重点考虑:

  • 模式集成问题
  • 冗余问题
  • 数据值冲突检测与消除问题

数据转换

如归一化、标准化等,使数据成为符合规范或便于后续处理的形式。

数据规约

  • 思路:从原有的巨大的数据集中获得一个具有代表性的精简数据集。
  • 策略:
    • 数据聚合
    • 维数消减
    • 数据压缩
    • 正则化规约
    • 数据摘要

数据分析和挖掘

这是大数据技术的重中之重,和统计学紧密相关。常用方法有如下几类:

  • 分类

如最基础的猫狗分类问题。 机器学习的基础方法如决策树、SVM、贝叶斯方法、神经网络、遗传算法等都属于这类。

  • 回归

比如线性回归、岭回归、套索回归等。

  • 聚类

顾名思义,相同集合(类)中的数据尽可能相似,不同集合(类)的数据尽可能不同。 常见算法有:层次聚类、划分聚类、密度聚类、模糊聚类等。

  • 关联分析

算法如Apriori、FP-Growth等

  • 偏差分析

用于发现数据中的异常情况

  • 协同过滤

该技术常被用于推荐算法,指的是根据某事物的一些特点,发现与其有关联性的更多事物,并进行推荐。

数据可视化

可理解为是前端。比较典型的工具有:

  • Processing.js
  • D3.js

大数据应用

  • 金融证券领域的用户画像、精准营销、风险管控、股价预测等
  • 互联网行业的精准营销、个性化推荐等
  • 物流行业的运输路线优化、供应链协同管理等。

参考书籍

  • 《基于鲲鹏的大数据挖掘算法实战》