偏相关:数据科学中被低估的因果分析工具

41 阅读5分钟

偏相关:数据科学中被低估的因果分析工具

[图片由作者提供]

在数据科学界,相关分析的名声并不算太好。时不时地,我会读到一些夸张的标题,比如"相关分析已死"、"告别相关分析"、"这是相关分析的替代品"等等。

但事实是,相关分析仍然非常活跃且蓬勃发展。这是因为在实践中,它作为衡量两个变量关系强度的代理指标表现得异常出色,而且在简洁性方面很难被超越。

话虽如此,相关分析确实有一个主要缺点。作为一个单变量指标,它无法考虑其他可能扭曲测量的变量的影响。这导致了统计学中那句著名的格言:"相关不等于因果。"

幸运的是,存在一个称为偏相关的广义版本,它保留了简单相关分析的所有优点,同时解决了其主要局限性。

然而令人惊讶的是,偏相关在很大程度上仍然不为人知。其缺乏流行度的证明是,它只在一个Python库中实现——Pingouin,而这并不是大多数数据科学家的首选库。

创建帐户以阅读完整故事。 作者仅向某平台会员提供此故事。 如果您是该平台的新用户,请创建新帐户免费阅读此故事。

在应用中继续 或者,在移动网页中继续 使用Google注册 使用Facebook注册 使用电子邮件注册 已有帐户?登录

1.4K 23

发布于TDS档案馆 82.9万关注者·最后发布于2025年2月4日 来自前Towards Data Science某平台出版物的数据科学、数据分析、数据工程、机器学习和人工智能写作档案。

关注 作者:Samuele Mazzanti 9.4K关注者·76正在关注 某机构应用科学家|我写关于现实世界中的数据科学|观点仅代表个人

回复(23) 写下回复 您有什么想法? 取消回复

Aleksander Molak 1月13日 老实说,偏相关也不是因果关系。 请注意,您寻找混杂变量的逻辑并不稳健,因为您无法将它们与中介变量区分开来。 这是PC算法只能识别马尔可夫等价类,而不能识别完整因果图的基本原因。 58回复

PG Madhavan 1月12日 不,偏相关不是因果关系!关于偏相关的旧文献来自1960年代的Box & Jenkins时间序列分析。 60回复

Dr. Holger Bartel 1月9日 亲爱的Samuele,感谢您提醒我这个伟大的指标。作为一个数据科学从业者,我很欣赏经典的相关分析。但在可解释AI领域工作时,您很早就了解到相关不是因果。偏相关完美地契合了... 更多 60回复 查看所有回复

更多来自Samuele Mazzanti和TDS档案馆的内容 在数据科学集体中 作者:Samuele Mazzanti 为您的ML模型建立更合理的基准 预测广告点击如何让我重新思考"足够好"的真正含义 10月10日 鼓掌图标97 回复图标3

在TDS档案馆中 作者:Rohit Patel 使用初中数学从零开始理解LLM 在本文中,我们从零开始讨论LLM的工作原理——假设您只知道如何加和乘两个数字。文章... 2024年10月20日 鼓掌图标8K 回复图标98

在TDS档案馆中 作者:Vijini Mallawaarachchi nutshell中的10种常见软件架构模式 是否曾想知道大型企业级系统是如何设计的?在主要软件开发开始之前,我们必须选择合适的... 2017年9月4日 鼓掌图标42K 回复图标148

在数据科学集体中 作者:Samuele Mazzanti 如何因"统计显著"决策而亏损 许多决策者依赖统计显著性——但这并不总能转化为价值。这是一个更有效的框架... 3月13日 鼓掌图标526 回复图标20

查看Samuele Mazzanti的所有内容 查看TDS档案馆的所有内容

某平台推荐内容 在GoPenAI中 作者:Ruth Yang 时间分割实验:在市场测试中解决网络效应的智能方法 作者:Ruth Yang | 数据清晰系列#18 6月29日 鼓掌图标1

在数据科学在某机构中 作者:Juhi Singh 实践中的因果推断:来自DoWhy、固定效应和EconML的方法论经验 作者:Juhi Singh, Bonnie Ao, Nehal Jain, and Sebastian Antin 7月1日 鼓掌图标52

在Towards AI中 作者:Torty Sivill 从相关到因果:使营销组合模型真正有用 包含数学和代码的实用指南,使MMM更加有用。 10月11日 鼓掌图标79 回复图标3

在LS Analytics中 作者:Lukasz Szubelak 实践中的因果AI:通过提升建模推动转化 在营销领域,决定向哪些客户提供特定促销活动可能感觉像一个永无止境的难题——特别是... 5月18日 鼓掌图标252 回复图标1

John Munn 复杂系统中的因果推断。为什么预测结果还不够 为什么在复杂系统中理解"为什么"胜过预测"什么" 7月3日 鼓掌图标116 回复图标2

在数据科学集体中 作者:Jimin Kang 非参数密度估计:理论与应用 非参数密度估计的理论和实践介绍。 5月13日 鼓掌图标343 回复图标2

查看更多推荐