使用python或AI自动分析数据关联(简介)

2 阅读4分钟

有一些Python库可以帮助用户自动发现数据集中的关联关系。通常这类方法被称为关联分析或关联规则挖掘,其中最著名的算法是AprioriFP-Growth

两个算法

  1. Apriori算法

    • 这是一个用于频繁项集挖掘和关联规则学习的经典算法。
    • Python中的mlxtend库提供了一个简单的实现。
  2. FP-Growth算法

    • 与Apriori相比,FP-Growth算法通常更快,因为它采用了不同的数据结构(FP-Tree)来存储频繁项集。
    • Python的pyfpgrowth库提供了FP-Growth的实现。

有哪些实现库?

以下Python库可以实现这些算法:

  1. mlxtend

    • mlxtend 是一个包含许多实用的数据挖掘、机器学习扩展工具的库,其中就包括用于关联规则挖掘的模块。mlxtend(Machine Learning Extensions)是一个专门用于数据科学和机器学习任务的Python库。
    • 使用方式举例:
      from mlxtend.preprocessing import TransactionEncoder
      from mlxtend.frequent_patterns import apriori, association_rules
      
      # 数据预处理
      item_list = [['牛奶', '面包'], ['面包', '黄油'], ...]
      te = TransactionEncoder()
      te_ary = te.fit(item_list).transform(item_list)
      df = pd.DataFrame(te_ary, columns=te.columns_)
      
      # 计算频繁项集
      frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True)
      
      # 提取关联规则
      rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
      
  2. pymining: 虽然在较早时期是一个流行的库,但请注意这个库可能不如mlxtend维护活跃,但它也曾提供Apriori算法的实现。

    PyMining 提供了如下的功能:

  • 数据预处理:包括对原始数据进行清洗、转换和格式化,为后续分析做准备。

  • 特征选择:提供用于减少特征空间维度的方法,比如主成分分析(PCA)等技术,通过示例/pca_matplot_example.py可以看到它如何将高维数据降至二维展示的例子。

  • 分类与回归:支持多种机器学习算法来进行分类和预测分析。

  • 聚类分析:包含不同聚类方法的实现,如K-means、层次聚类等。

  • 关联规则挖掘:能够发现数据集中的频繁项集,并基于这些项集生成关联规则,例如使用Apriori算法发现“购物篮分析”中的商品组合规律。

  1. pandas-profiling
    • 这个库主要用于快速生成数据分析报告,其中包括了对数据集之间潜在关联性的可视化展示,但并不直接执行关联规则挖掘。 主要特点:
  • 自动化报告:通过一行代码即可生成交互式的HTML报告,报告中包含了数据的基本描述统计(如均值、中位数、标准差等)、分布直方图、相关性矩阵、缺失值分析等丰富的可视化图表。

  • 特征洞察:自动计算各个特征之间的关系,并进行可视化展示,帮助用户迅速了解数据集的内部结构和特征间的相互作用。

  • 高效易用:对于大型数据集,它还支持采样以提高处理速度,且其API设计简洁,只需对DataFrame调用.profile_report()方法就能生成分析报告。

  • 可定制化:允许用户自定义配置,比如选择要显示哪些类型的统计指标或调整报告的样式等。

  • 输出格式:除了生成HTML报告外,还可以将报告导出为JSON文件,方便进一步的整合与使用。

  1. orange3
    • Orange3是一个基于组件的数据挖掘和机器学习软件套件,它有一个关联规则模块,支持FP-growth算法。
    • 但请注意,在大多数情况下,Orange3推荐使用的开发方式是在其提供的图形化环境中拖拽各种数据挖掘和机器学习组件进行数据分析。

与Apriori相比,FP-Growth算法通常更快,因为它采用了不同的数据结构(FP-Tree)来存储频繁项集。,Python的pyfpgrowth库也提供了FP-Growth的实现。

对于简单的探索性关联分析,pandas 库本身通过计算相关系数或使用crosstab等函数也能揭示变量间的简单统计关联关系。然而,对于复杂的市场篮子分析或其他类型的关联规则挖掘,上述专门的库更为适用。