什么是数据挖掘中的Apriori算法?你需要知道的一切
![]()
目录
电子商务应用的迅速崛起,增加了数据的积累。为了预测结果,数据挖掘,也被称为KDD(数据库中的知识发现),被用来检测数据中的违规、联系、趋势和模式。
一种被称为Apriori的算法是数据挖掘中常见的一种算法。它被用来识别数据集中最频繁出现的元素和有意义的关联。举例来说,消费者带到商店的产品都可以作为这个系统的输入。
一个有效的市场篮子分析是至关重要的,因为它可以让消费者更方便地购买他们的产品,从而导致市场销售额的上升。此外,它还被应用于医疗保健领域,帮助识别有害的药物反应。产生的聚类算法可以识别哪些药物和病人因素的组合与药物不良反应有关。
Apriori属性
1994年,R. Agrawal和R. Srikant开发了Apriori方法,用于使用布尔关联规则识别数据集中最频繁出现的项目集。由于它利用了以前关于常见项目集特征的知识,该方法被称为Apriori。这是通过使用迭代技术或逐级方法来实现的,在这种方法中,k-频繁的项目集被用来定位k+1的项目集。
一个被称为Apriori属性的基本特征被用来提高频繁项目集的逐级产生的有效性。这个特性有助于最小化搜索区域,这反过来又有助于最大限度地提高频繁模式的逐级生成效率。
Apriori算法是如何工作的?
Apriori算法在一个简单的前提下运作。当一个项目集的支持值超过某个阈值时,它被认为是一个频繁项目集。考虑到以下步骤。首先,设定支持度标准,也就是说,只有那些超过支持度标准的事物才被认为是相关的。
- 第1步:创建一个所有在每个交易中出现的元素的列表,并创建一个频率表。
- 第2步:设定最低支持度。只有那些支持度超过或等于阈值支持度的元素才是重要的。
- 第3步:必须对所有潜在的重要元素进行配对,牢记AB和BA是可以互换的。
- 第4步:统计每个配对在交易中出现的次数。
- 第5步:只有那些符合支持标准的数据集才是重要的。
- 第6步:现在,假设你想找到一个可能一起买的三样东西的集合。需要一个规则,即所谓的self-join,来建立一个三件物品的集合。项目配对OP、OB、PB和PM说明,从这些集合中寻找两个首字母相同的组合。
- OPB是OP和OB的结果。
- PBM是PB和PM的结果。
- 第七步:当再次应用阈值标准时,你会得到重要的项目集。
Apriori算法的步骤
Apriori算法有以下步骤。
- 第1步:确定交易型数据库的支持程度,建立最小程度的协助和依赖性。
- 第2步:取所有交易的支持度大于标准或选择的支持度值。
- 第3步:在这些分组中,寻找所有精度大于截止值或基线标准的规则。
- 第4步:最好将规则按强度升序排列。
提高Apriori效率的方法
该算法的效率可以通过各种方式来提高。
-
基于哈希的技术
使用被称为哈希表的基于哈希的结构,生成k项集和它们的相关计数。该表是用一个哈希函数生成的。
-
减少交易
使用这种策略时,每个循环中需要扫描的事务较少。在一个过程中不经常使用的项目被标记或删除。
-
分区
使用这种方法,只需要两次数据库搜索就可以找到经常出现的项目集。任何项目集要被认为在数据库中 "可能经常出现",它必须至少在数据库的几个分区中普遍存在。
-
抽样
从数据库D中选择一个随机的样本S,然后在这个样本S中搜索频繁出现的项目集。 全局频繁出现的项目集可能会被错置。通过减少最小值,可以减少这种情况。
-
动态项目集计数
在筛选数据集的过程中,这种方法可以在目录的任何指定起始位置增加新的迭代。
Apriori的优点
- 一种简单的算法,易于掌握。
- 合并和压扁过程很简单,可以应用于巨大的数据库中的大项目集。
Apriori的劣势
- 如果项集非常大,它需要大量的计算,而且最小的支持被维持在最低限度。
- 需要对整个数据库进行全面扫描。
Apriori算法的应用
Apriori被应用于以下领域。
-
教育
通过使用特质和专业,对被录取的学生进行数据挖掘,可用于提取关联规则。
-
医疗
例如,分析病人的数据库,可能是合适的。
-
林业
利用森林火灾数据分析森林火灾的频率和强度。
-
自动完成工具
Apriori被许多公司采用,包括亚马逊的推荐系统和谷歌的自动完成工具。