1/什么是关联规则
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为关联规则的先导和后继。
其中,关联规则XY,存在支持度和信任度。
关联分析的最终目的就是找出关联规则,我们所说的关联规则都是强关联规则
2/"尿布与啤酒"的故事
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。
但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。
这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。
沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客进行购物篮分析,想知道顾客经常一起购买的商品有哪些。
沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。
一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!
经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:
在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。
产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
3/名词术语

4/如何计算支持度和置信度

5/例子

上图是顾客购买记录的数据库D,总共有6条记录。
考虑关联规则(频繁二项集):网球拍与网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,
X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5,
置信度(X^Y)/X=0.6。
若给定最小支持度α=0.5,最小置信度β=0.6,认为购买网球拍和购买网球之间存在关联。
6/关联规则挖掘的过程
<1>找到频繁项集
频繁的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。
一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项集。
一个满足最小支持度的k-itemset,则称为高频k-项集(Frequent k-itemset),一般表示为Large k或Frequent k。
算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。
<2>产生关联规则
关联规则挖掘的第二阶段是要产生关联规则。
从高频项集中产生关联规则,是利用前一步骤的高频k-项集来产生规则,在最小置信度的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。
例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若信赖度大于等于最小信赖度,则称AB为关联规则。
7/相关算法
apriori
fp-growth