机器学习中的Apriori算法简介

122 阅读5分钟

Apriori Algorithm in Machine Learning

Apriori算法简介

在机器学习技术中,我们正在使用不同的和一些算法来赋予硬件或机器以智能。Apriori算法就是其中之一。Apriori算法有助于生成关联规则。为了生成关联规则,它使用频繁数据集或项目集信息。一般来说,它被设计成可以在包含或支持交易的不同数据库中工作。根据关联规则,我们能够识别两个对象的强联系或弱联系。根据工作机制,apriori算法使用哈希树和广度优先搜索来计算项目集。它将非常有效地计算出项目集。大数据集将提供识别频繁项集的迭代机制。

apriori算法是由Srikant和R. Agrawal开发的。它是在1994年开发的。在最初阶段,apriori算法主要用于市场篮子分析。它将有助于确定客户可以一起购买的产品。同样的算法也将用于医疗保健行业。它将有助于识别药物反应。

机器学习中的Apriori算法

在Apriori算法中,我们主要关注的是频繁项集。频繁项集是那些支持值大于用户定义的最小支持值或我们定义的阈值的项目。为了简单起见,让我们考虑两个项目集,即P和Q,P和Q都是频繁项目集。

让我们考虑有两个交易。P = {1,2,3,4,5}, 和Q = {2,3,7}。在这两个交易中,2和3是共同项目集。

注:在apriori算法中,我们主要需要关注关联规则。为了很好地了解apriori算法,我们需要正确理解支持度的概念和置信度。在这里,关联规则出现在图片中。

以下是有助于理解apriori算法的短语列表。

第一阶段:在初始阶段,我们需要确定事务性数据库中的支持项集列表。相应地,我们需要选择最小支持度和信心值。

第二阶段:我们需要在较高支持值的帮助下,从交易表中提取所有的支持值。与所选的支持值相比,支持值要高一些。

第三阶段:我们需要找到所有的规则集。根据这些规则,与最小置信值或阈值相比,具有较高置信值的子集值。

第四阶段:在这里,我们按照递减的顺序对规则集进行排序。

Apriori算法是如何工作的?

为了详细解释Apriori算法,我们使用一些数学计算
例子。让我们考虑一下,我们有以下的数据集。它保存着交易的列表。在同一个数据集中,我们正在寻找公共项目集。根据要求,我们需要在apriori算法的帮助下定义关联规则。

交易ID物品集
TID1P, Q
TID2Q, S
TID3Q, R
TID4P、Q、S
TID5P,R
TID6Q, R
TID7P,R
TID8P, Q, R, T
TID9P, Q, R

注:根据上述交易表,最小支持值为2,最小置信值为50%。

apriori算法的解决阶段

第一阶段:计算C1和L1

在初始阶段,我们要建立一个表,用来保存支持度计数值,即单个数据集中的公共项目集。该表被称为C1,即候选集。

项目集支持数
P6
Q7
R5
S2
T1

在下一阶段,我们将得到那些支持值大于最小支持值的项目集,即支持值为2。 它将为我们提供常见项目集的表格,即L1

项目集支持数
P6
Q7
R5
S2
T1

第二阶段:候选基因C2,和L2

在这个阶段,我们将在L1的帮助下制作C2。在C2中,我们要创建L1的一对项目集。它将以子集的形式出现。
一旦子集准备好了,我们需要找到与数据集的主交易表相比的支持值计数。

项目集支持值计数
{P, Q}4
{P, R}4
{P,S}1
{fnTahomafs10bord0shad01cH00FFFF}{Q,R}.4
{fnSimHeibord1shad1pos(200,288)}Q,S2
{R,S}0

再一次,我们需要将C2支持度与最小支持度值进行比较。一旦比较完成,那些具有较少支持值的项目集将被删除,并给出L2表。

项目集支持度
{P, Q}4
{P, R}4
{fnSimHeibord1shad1pos(200,288)}Q,R4
{fnSimHeibord1shad1pos(200,288)}Q,S2

第三阶段:我们正在生成候选的C3和L3

在C3中,我们正在重复同样的过程,但这里将在子集值为3的帮助下创建C3表。我们将在数据集的帮助下计算支持度。

项目集支持率计算
{P, Q, R}2
{Q, R, S}1
{P, R, S}0
{P, Q, S}0

我们需要创建L3级别的表格。这里,我们使用上面的C3表。根据该表,我们只得到一个项目集的单一组合,该组合将支持等于最小支持计数的数值。现在,L3将只有一个分组,即{P, Q, R}。

第四阶段:关联规则的发现

我们需要在{P, Q, R}组合的帮助下为关联规则创建一个新的表格。在调用关联规则方面,我们将在sup (P ^Q)/P的帮助下调用信心。一旦所有规则的置信度下降,我们就需要排除那些置信度较低的规则,与最小阈值即(50%)相比较。

- P^Q → R 2 Sup{(P ^Q) ^R}/sup(P ^Q)= 2/4=0.5=50%
- Q^R → P 2 Sup{(Q^R) ^P}/sup(Q ^R)= 2/4=0.5=50%
- P^R → Q 2 Sup{(P ^R) ^Q}/sup(P ^R)= 2/4=0.5=50%
- R→ P ^Q 2 Sup{(R^( P ^Q)}/sup(R)= 2/5=0.4=40%
- P→ Q^R 2 Sup{(P^( Q ^R)}/sup(P)= 2/6=0.33=33.33%
- Q→ Q^R 2 Sup{( Q^( Q ^R)}/sup(Q)= 2/7=0.28=28%

结论 - 机器学习中的Apriori算法

我们已经看到了 "Apriori算法 "这个未经切割的概念。Apriori算法将有助于生成关联规则。它将有助于识别频繁的交易项目。