数据挖掘能够发现多种类型的知识,包括广义知识、关联知识、分类知识、聚类与孤立点知识、预测知识和时间序列模式知识。
课程内容
数据挖掘发现什么样的知识
数据挖掘常用技术及分类
数据挖掘过程
数据挖掘应用
数据挖掘隐私权问题
数据挖掘发现的知识类型
广义知识
关联知识
分类知识
聚类与孤立点知识
预测知识
序列模式知识
有价值的知识
1、广义知识
广义知识指类别特征的概括性描述知识,对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识
根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质。
描述统计是数据挖掘最基本的应用之一,经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。如当月公司利润总额、比较不同区域的销售量等。
广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。
2、关联知识
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。
关联知识可分为简单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则。
发现关联规则的算法主要有Apriori算法和频繁模式树(FP-树)
典型例子是购物篮分析
3、分类知识
分类知识是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。
估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。
典型应用:客户细分。例如,银行根据客户的存款额、信用额和消费金额把客户分成不同的类别,分别办理不同类型的银行卡。
算法有决策树分类、贝叶斯分类、人工神经网络法、粗糙集法和遗传算法等。
4、聚类
聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组。
聚类与分类不同,它们的区别如下:
第一,分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。
第二,在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。
常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等。
5、孤立点分析
数据库中可能包含一些数据对象,它们与集合中其它数据的一般行为或模型不一致,这些数据对象称为孤立点。
孤立点可以使用统计试验检测。它假定一个数据的分布或概率模型,并使用距离度量,到其它数据对象的距离很远的对象被视为孤立点。
基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量。
孤立点分析通常可以作为聚类分析的副产品,根据聚类分析结果,含有对象个数少于设定阈值的聚类中的事物看作是孤立点。
6、预测知识
预测是从历史数据找出变化规律,建立模型,并用此模型预测未来数据种类、特征等。
用分类预测离散数据
用回归分析预测连续数据。
典型的回归分析是利用大量的历史数据,建立线性或非线性回归方程。
根据回归模型,只要输入自变量的值,就可以求出因变量的值,达到对因变量的预测。
7、时间序列模式
时间序列分析是描述行为随时间变化的对象的规律或趋势,并对其建模。
包括与时间相关数据的特征、区分、关联、分类或聚类,
根据分析的不同特点分为时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。
如股票市场的每日波动、动态产品加工过程、科学实验、医学治疗等。
8、有价值(感兴趣)的知识
数据挖掘的知识有三个重要问题需要回答:
什么样的模式是有价值(感兴趣)的?
价值度量
挖掘系统能产生所有有价值的模式吗?
算法的完全性问题
数据挖掘到的模式是否都是有价值的知识?
优化问题
数据挖掘中常用的十三种技术:
统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等。
数据挖掘技术分类
- 按数据库类型分类
根据数据模型分类,有关系的、事务的、面向对象的、对象-关系的、或数据仓库的数据挖掘系统。
根据所处理的数据的特定类型分类,有空间的、时间序列的、文本的、或多媒体的数据挖掘系统,或WWW数据挖掘系统。
- 按数据挖掘对象分类
对数据库进行挖掘
文本数据挖掘
多媒体数据挖掘
Web数据挖掘
- 根据挖掘的知识类型分类
概念描述
关联分析
分类
预测
聚类分析
孤立点分析
4.按挖掘方法分类
归纳学习类
仿生计算类
公式发现类
统计分析类
模糊数学类
可视化技术类
数据挖掘的流程
数据挖掘的应用领域
数据挖掘应用最集中的领域包括金融、医疗、教育、零售、电商、电信和交通等,而且每个领域都有特定的应用问题和应用背景。
以软件工程数据挖掘为例:
软件工程数据(软件开发过程中积累的各种数据):可行性分析和需求分析文档、设计文档、使用说明、软件代码和注释、软件版本及其演化数据、测试用例和测试结果、软件开发者之间的通信、用户反馈等。
应用领域的案例
电商领域:借助于交易记录挖出破坏规则的“害群之马”
交通领域:为打车平台的乘客订制弹性价格
医疗领域:为乔布斯寻找最佳的医疗方案
个人数据隐私权:个人对以数据形式收集和存储在信息系统中的有关自己的资料加以控制和保护的权利。
数据挖掘是建立在大量真实数据分析的基础之上的,这就会产生个人数据的隐私保护问题。
从数据挖掘的角度来看,隐私既可能带来成功,亦可能带来威胁。滥用隐私不仅破坏企业在客户心目中的良好形象,也会将数据挖掘推入灰暗的前景中,阻碍数据挖掘这一新兴技术的采纳、应用和推广。
典型案例(1)
2018年3月18日曝光的Facebook裙带公司剑桥分析公司(Cambridge AnalyticaAnalytic)数据隐私丑闻事件。
剑桥分析公司是美国一家政治数据分析公司,被曝光在未经用户同意的情况下,利用在 Facebook 上获得的5000万用户的个人隐私数据,来创建档案,并在2016美国总统大选期间针对这些人进行定向宣传,有助推特朗普获胜的嫌疑。
该丑闻凸显了Facebook的“DNA”中存在的问题:数据挖掘。
典型案例(2)
奇怪的声音:用隐私换效率?
百度董事长李彦宏在2018年3月26日在中国发展高层论坛上表示:中国用户在个人隐私方面没有那么敏感,更加开放,一定程度上愿意用隐私换方便和效率,但百度也会遵守相应法规法则。
网友:
但我只换来一天几十个骚扰电话!!!
数据挖掘者可能从以下几个方面侵犯公民的个人数据隐私权:
(1)过度采集个人数据
(2)挖掘者超常使用个人数据
(3)挖掘者不当或错误分析个人数据
(4)挖掘者非法公开个人数据
保护隐私权的对策
(1)加强法律法规的建设和监督执行
(2)提高保护隐私的技术手段
(3)提高用户的隐私数据自我保护意识
数据挖掘隐私权的问题是数据挖掘中一个非常重要的问题,它的解决程度直接决定了数据挖掘的未来。
数据挖掘是一种解决“数据爆炸但知识贫乏”困境的技术,旨在从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。
数据挖掘是一类深层次的数据分析方法。它与传统的数据分析以及联机分析处理有本质的不同。数据挖掘采用信息论、集合论、神经网络、遗传算法、模糊数学等方法发现隐藏在数据中概念、关联、分类预测和偏差等类型的知识。
数据挖掘所发现知识的质量与数据的质量密切相关,数据挖掘过程中。原始数据的预处理是工作量最大的一项任务。