“如果你手里只有一把锤子,那么看什么都像钉子”——工具法则(the law of the instrument),亚伯拉罕·马斯洛(Abraham Maslow)
这句经典的话,完美地说明了当前人工智能与机器学习(AI/ML)的现实图景。如今,ML(AI 体系中的一类模型)需求极高。从研究到产业,人们往往都会聚焦这些令人兴奋的新模型,试图用它们解决所有问题。
ML 主要用于预测(prediction) ,而且它在这方面确实非常擅长。它能在大型且复杂的数据集中识别模式。我们可以把这类 AI 称为:预测型 AI(predictive AI) 或 预测型 ML(predictive ML) 。我会使用这组术语,以确保我们明确排除掉“因果 AI(causal AI)”或“因果 ML(causal ML)”,后者我会在本章后面讨论。
预测推断(predictive inference)利用的是相关性(correlations) 。因此,既然你现在已经知道“相关性不蕴含因果性”,你就应当明白:不能盲目地用预测型 AI 来测量因果效应。这个问题对于做出有根据的决策、选择正确的工具组合至关重要。我甚至见过一些 AI 专家并不理解这种区别,结果用错了工具来回答他们的问题。
本章将帮助你理解这些差异,以及为什么你不应当盲目混用预测推断与因果推断。此外,你还会学到如何结合它们各自的优势,以及什么是新兴领域——因果 AI。到本章结束时,你将能够做出更明智的选择,从而避免这些常见错误。
本章将涵盖以下主题:
- 为什么措辞很重要:那条很薄的术语边界
- 不同角色:预测推断(预测型 AI) versus 因果推断
- 如何在传统 ML 与因果推断之间做选择
- 强强协作:当因果推断帮助我们衡量预测工具的影响
- 统一:因果 AI——一个令人兴奋的新兴领域
为什么措辞很重要:那条很薄的术语边界
这条边界往往非常薄。人们会在没有意识到的情况下提出因果主张。在这种语境下,术语和用词的选择至关重要。对于非因果关系,我们应当明确称其为关联(associations)或相关(correlations) 。
当你只有相关性时,你可以说“当我观察到 X 时,我观察到 Y”。这种表述并不蕴含因果关系。比如,如果我说:“当冰淇淋销量高时,鲨鱼袭击也更多”,这里(希望)很清楚这说的是相关性。
对于因果关系,你会说:X 影响 Y,或者 X 增加了 Y。但我们必须小心。人们往往会很快跳到结论。如果你说,在移民或外国人更多的地方犯罪率更高,很多人会立刻得出结论:移民就是问题所在。但这里也可能是,移民最初迁入的是该国较贫困地区,而这些地区本来犯罪率就已经较高。要用因果方式回答这个问题是复杂的,并且需要使用因果推断。对于那些希望看到该主题严格因果分析的人,一篇发表在高影响力期刊 American Economic Review 的论文——The Violent Legacy of Conflict: Evidence on Asylum Seekers, Crime, and Public Policy in Switzerland——就是一个很好的例子。这个期刊在因果分析方面的标准尤其高。
这种“相关 vs 因果”或“预测 vs 因果”的区分,并不仅仅是技术细节;它对企业、政府以及其他所有主体都有巨大的影响。因此,让我们深入这个细微却关键的区别——它后果重大,而且即便在专家中也经常被误解。
下面是我最近遇到的一个能说明这个问题的情境。某顶尖商学院的研究人员向我展示了他们的研究想法。他们希望搞清楚,哪些环境措施和 ESG 指标(ESG 指环境、社会与治理,是一个用于评估组织如何管理环境可持续性、社会责任和治理实践相关风险与机会的框架)能够有效改变行为,尤其是减少企业的环境影响。
我指出,他们的分析将是相关性分析。团队很快表示这不是问题;这些结果仍然可以用。我问:“怎么用?”“我们能从中学到什么?” 结果这个团队基本卡住了,因为唯一真正有用的结论都需要因果解释。即便他们用了正确的术语,人们依然很可能会误解并滥用这些结果。比如,如果他们声称:当高管奖金与公司 CO₂ 排放挂钩时,环境影响更低——即使他们同时强调这只是相关性,绝大多数受众依然会把它读成因果关系。但这并不是一个因果关系,至少在这种研究设计下,我们只能捕捉到相关性,而不能证明因果。也可能是,那些本来就有能力减排的公司,会设定这些指标,因为它们知道自己能做到。要对这个问题进行因果测量,我们需要应用第 6 章或第 7 章里介绍的方法之一。
现在,让我们来看一个新闻中“预测 vs 因果”被误解的例子。
这里还有一个例子,强调了:即便人们使用了正确术语(如 correlation 或 association),他们仍然倾向于误解结果。CNN 曾发表一篇文章,标题是: “6 exercises that address an often overlooked key to longevity” (6种锻炼,针对一个常被忽视的长寿关键因素)。文章报告了“握力(grip strength)与寿命之间观察到的一个相当强的相关关系”。握力确实是心脏健康的一个不错预测指标。是的,它可能是一个不错的预测指标。当我说 predictor(预测指标)时,请联想到我前面说的预测型 AI 或预测推断:它依赖的是相关性。虽然文章提到了关联和相关,但这并没有阻止作者展示如何增强握力的锻炼方式,并使用一个暗示“增强握力会影响寿命”的标题(这就是因果假设)。你在文章里再怎么说“相关/关联”都没用,只要你接着建议去改变握力,这就暴露出你没有理解那只是相关性。这个关联背后的主要驱动因素,很可能是一个同时影响寿命和握力的共同原因,即与身体活动相关的因素。这就是我们所说的混杂因素(confounder) ,我们将在第 4 章深入学习。
还要注意,CNN 的文章引用了一篇科学论文。但再次强调,如果你去看那篇论文的摘要,即便你不是研究人员,仅凭我们目前学到的知识,你也能从其用词判断出它是相关性研究:
“有强有力的证据表明,较低握力与全因死亡、癌症死亡和心血管死亡风险升高之间存在关联(association)。”(López-Bueno 等)
这是一个极其有用的工具,可以帮助你防止基于科学研究提出的滥用性主张。检查研究报告的是 association/correlation(关联/相关),还是 causal effect(因果效应),然后据此做恰当解释。所以,下次当你看到一篇文章或某个人引用研究时,试着快速看看背后的论文,以核实该主张。虽然这种方法并不完美,但在很多情形下,它能帮助你识别误导性的结论——就像这个例子所展示的那样。
不同角色:预测推断(预测型 AI) versus 因果推断
预测型 AI 的核心,是通过观察一些事物的取值,来预测另一些事物的取值。这就是我们可以称作的预测推断(predictive inference) 。想象一下你向窗外看去,看到人们穿着短裤和人字拖,你就会合理地预测天气很暖。这就是预测推断在起作用:你观察到某些东西(人们的穿着选择),并据此推断结果(温度)。
预测型 AI 被广泛用于各种领域:
- 垃圾邮件过滤:扫描收到的邮件,判断它们是正常邮件还是垃圾邮件
- 医学诊断:分析 MRI 图像以检测肿瘤
- 欺诈检测:识别暗示欺诈的异常银行活动
- 销售预测:基于各种经济指标和市场趋势预测未来销售额
- 气候风险:观察各种气候与天气指标,预测森林火灾风险
一种特别流行的预测型 AI 模型是推荐算法。它的目标是根据顾客自身行为及他人行为,推荐顾客可能会喜欢的东西。这类预测算法如今是许多大型科技公司的核心。大型流媒体公司试图预测你下一个可能喜欢的电视剧;社交媒体平台普遍试图预测什么内容能把你留在平台上;大型在线零售商试图预测你更可能购买哪类衣服;等等。这些模型都依赖预测型 AI。公司并不需要理解你为什么会喜欢某条牛仔裤或某部电视剧;他们只想把“正确内容”展示给你。
这些应用凸显了预测模型在识别模式方面有多强大。然而,企业很少会止步于“可能会发生什么? ”。他们真正想知道的是:“我们怎样让它发生(或者阻止它发生)? ” 正如 Causal Inference in Python 一书作者 Matheus Facure 所说:“在大多数情境下,企业并不纯粹关心预测。他们关心的是做出能带来更多客户、提高转化、降低流失、提升盈利能力并降低成本的决策。”
这正是因果分析介入的地方,因为仅仅预测某个事件,并不能解释它为什么发生,也不能告诉你如何改变它。正如你现在已经知道的,因果推断是用于测量因与果的科学方法。它关注的是某件事对结果的影响。因果推断的目标,是理解当我们改变某样东西时结果会发生什么,而不只是观察某样东西“本来是什么样”。如果我们增加广告投入,销售会增长吗?如果我们引入弹性工作时间,员工敬业度会提升吗?
因果推断必不可少的典型场景包括:
- 投资回报率(ROI) :评估某个项目或活动究竟带来了多少收入
- 广告支出回报(ROAS) :衡量广告对销售的贡献,并考虑季节趋势或竞争对手动作,以免高估活动成功
- 定价(Pricing) :估计价格对销量的影响(价格弹性),以优化策略
- 政策评估(Policy evaluation) :评估新政策(如远程办公规则或高管薪酬结构)对团队绩效或员工满意度的影响
- 识别增长驱动因素(Identifying growth drivers) :分清销量增长究竟是由你的营销活动触发,还是由天气或经济条件等外部因素引起
虽然预测推断和因果推断都很有用,但重要的是要理解:它们的目标不同。在预测推断中,目标是准确预测一个结果。因此,你会把精力投入到确保模型能在新的、未见过的数据上预测出结果的数值或类别。例如,你想预测一封新邮件是否应被归类为垃圾邮件。在预测推断领域,有很多用来评判预测质量的指标,而且它们的重要性会因情境而异。比如,有些情境要求尽量减少漏报(false negatives) ,即便代价是产生更多误报(false positives) 。这在 MRI 肿瘤检测或欺诈检测中就可能如此。
你宁愿出现一个误报(把无害的东西标记出来),也不愿出现一个漏报(漏掉危险的东西)。之后可以由专家复核潜在阳性并筛掉误报。反过来,在垃圾邮件过滤中,你可能会优先避免误报。你宁愿让一些垃圾邮件漏过(漏报),也不愿把一封关键邮件错误地送进垃圾邮箱(误报)。
预测推断的价值,与相关性信息的价值是类似的。唯一的问题在于:如果你把预测结果解释成因果关系。让我用一个真实世界的例子说明。ML 被用于医疗领域,以预测脓毒症(sepsis)风险(例如基于电子病历的早期预测研究)。WHO 将脓毒症定义为一种危及生命的状况:身体免疫系统对感染做出极端反应,导致器官功能障碍。通过快速预测这种风险,医生就可以及时使用抗生素或采取其他措施,从而挽救生命。
体温通常是脓毒症风险的一个关键预测指标。如果你把这误解为“原因”,你可能会想直接对它采取行动,比如降低患者体温(例如外部降温)。这种治疗如果说有什么作用,可能反而弊大于利,而且显然不能拯救病人的生命。体温升高只是脓毒症的结果,而不是原因。
再看另一个真实例子。设想一家全球零售商,希望优化其邮件营销活动以提升销售。典型的 ML 模型可以预测谁最可能打开邮件或完成购买。但真正驱动收入的问题是:发送邮件是否导致了购买,还是这个客户本来就会买? 为了解决这个问题,M&S 使用了因果推断。YouTube 上有一个来自该全球零售商两位员工的分享,讨论了因果推断在零售中的应用(Causal Inference in Retail)。
当你仅依赖预测模型(传统 ML)来做决策时,你往往会陷入一种被动响应(reactive)模式。为什么?因为这些模型“看到”的是世界当前状态——银行账户余额、购买历史、点击流数据——然后预测“如果什么都不改变,接下来可能发生什么”。例如,在银行业,模型可能发现某个模式,提示某位客户存在违约风险。这当然有用,但它并没有告诉你这个客户为什么脆弱。
这正是为什么预测型 AI 往往导向被动策略。你等待并观察数据中的信号,就像看到某人体温在升高,然后对这些信号作出反应。这在很多任务上确实很有效:标记欺诈交易、分诊医疗急症、或预测销售。
但如果你的目标是理解问题根源并对根源采取行动,你就需要更多东西。你需要因果推断,因为它能帮助你超越相关性。你不再只是识别“谁可能违约”,而是开始追问:“违约风险的底层驱动因素是什么?如果我们提供财务辅导,或者调整还款计划,会不会减少违约?” 这就是因果分析的力量:你不只是观察世界;你在弄清楚如果你对世界采取行动,会发生什么。这会解锁主动型策略(proactive strategies),让你能够更早干预,并把行动聚焦在真正驱动你关心结果的因素上。
正如 Judea Pearl 极具洞见地指出的,预测与因果之间的差异,类似于“看见(seeing) ”与“行动(doing) ”之间的差异。传统 AI 帮助你看见数据中的模式,并据此做出反应。因果推断则指导你作用于底层驱动因素,从而最终影响结果。
别误会,预测仍然极其有用。为了确保这一点足够清楚,让我举一个完全不同的例子:武装冲突。Hannes Mueller 教授是这一议题的领军人物之一。他共同创建了一个免费的在线平台 conflictforecast.org,公开其 ML 算法在国家层面预测冲突风险的结果。其目标是帮助预防与决策。在一篇写得非常漂亮的文章《The Case for Armed Conflict Prediction》中,Hannes 写道(意译):机器学习相比单靠人类专家,确实改进了事件预测(Benjamin 等,2023),但如果预测不能解释发生了什么,那么这种努力是否值得,问题仍然存在。要回答这个问题,需要先澄清“预测”究竟是什么。预测模型旨在基于数据中的模式预测接下来会发生什么;相较之下,因果模型试图识别特定变量或干预对结果的影响。预测与因果推断模型,本质上都只是借助统计方法来总结数据的方式。但识别因果参数通常更困难,因为可信的因果推断需要强假设和谨慎的识别策略(Pearl, 2009;Angrist and Pischke, 2009)。
在决策中,解释或说明一个决策的能力往往是核心,因为这关系到如何为决策辩护,以及如何判断其质量。谈到 AI,我相信你一定经常听到:这些模型是无法解释的“黑箱”。这确实是复杂 AI 模型的一个局限,有时也确实是个问题。
如果你看今天流行的聊天机器人,比如 ChatGPT,它显然有超过万亿级参数。我们很容易想象,这会让解释结果变得非常困难。这一点对复杂的预测型 AI 模型同样成立。
不过,一些预测型 AI 模型被称为“可解释(interpretable) ”模型。通常这类模型更简单,比如决策树或线性回归模型。在这些情况下,人类相对容易查看模型并理解它的参数,以及是什么驱动了预测。
AI 世界里另一个常用术语是“可解释性(explainability) ”。如果一个模型的结果可以借助额外工具或技术被人类理解,那么这个模型就具有可解释性。这通常在处理人工神经网络等复杂模型时非常有用。
另一方面,因果模型在绝大多数情况下都是可解释的,这是这类模型一个非常核心且有用的特征。通常来说,理解模型并解释结果都相当容易。
如何在传统 ML 与因果推断之间做选择
正如我们已经看到的,传统 ML 和因果推断都极其强大,但它们解决的是非常不同的问题。关键是先从这个问题开始: “我到底想知道什么,或者想实现什么?”
如果你的主要目标是预测或分类一个结果——比如识别哪些客户可能贷款违约,或者判断一封邮件是不是垃圾邮件——那么传统 ML 就非常合适。它擅长模式识别,并利用已有数据,基于你所观察到的内容来预测结果。你本质上是在问:
- 这个数据点属于哪个类别(例如,垃圾邮件 vs 非垃圾邮件,欺诈 vs 合法)?
- 对这个数据点,我应该预期怎样的结果水平(例如,在当前天气或经济条件下,我明天大概能卖出多少件)?
另一方面,如果你想超越“发生了什么”,进一步深入“为什么会发生”,更重要的是“如何影响它”,那你就需要因果推断。你不再停留在“这个客户很可能违约”,而是会进一步调查:“为什么这个客户有风险?哪些因素(利率、金融教育、还款条款)真正驱动了这种风险?如果我们改变这些因素,会不会减少违约人数?” 当你想评估某个决策或政策的影响时——比如 ROAS、营销活动、政策变更、产品上线——因果推断就变得至关重要。
它回答的是这样的问题:
- 提供折扣是否真的会导致销量上升?
- 会员忠诚计划会减少客户流失吗?
- 弹性工作时间对员工生产率有什么影响?
在这些场景中,你不只是预测结果;你是在试图通过识别并作用于底层原因来改变结果。
通过清楚地区分你的目标究竟是“预测”还是“改变”,你就能确保自己应用的是正确工具,并让你的组织不只是为“预判未来”做准备,也能够真正去“塑造未来”。
但如果我们想衡量一个预测型 AI 模型的影响(这是一个因果问题),该怎么办呢?
强强协作:当因果推断帮助你衡量预测工具的影响
虽然预测推断和因果推断服务于不同目的,但当它们结合使用时,会出现新的可能性。通过结合二者的优势,我们可以构建不仅能够预判结果、还能够通过评估行动影响来指导决策的系统。当 AI 或 GenAI 模型被部署到生产环境时,这种整合尤为关键,因为理解这些模型在现实世界中的影响,至少与它们的预测精度同样重要。
正如你已经理解的,许多 AI 驱动系统的核心都是预测推断。例如,一家允许用户预订航班、住宿等服务的大型数字旅行公司,会使用预测推断来驱动其推荐系统,根据用户的浏览历史、偏好和上下文数据,预测用户可能更喜欢哪家酒店或哪项活动。这是一个典型的 ML 任务:构建一个模型,为每位用户提供最相关的推荐。
然而,仅有预测不足以支持有依据的商业决策。一旦模型进入生产环境,关键问题就变成了: “这个系统对销售、客户满意度、留存率等关键业务指标的影响是什么?” 这正是因果推断接手的地方。
某家大型数字公司的资深 ML 经理在与 Aleksander Molak 的一档播客中解释说,预测模型有助于识别用户可能喜欢什么,但只有因果推断才能回答:上线一个新的推荐系统,是否会在销售或客户转化上带来有意义的变化。为此,这类公司会依赖随机实验(见第 5 章“因果思维框架”部分),来测量推荐系统对用户行为的因果影响。
预测与因果的这种相互作用,构成了一个强大的工作流:
- 预测(Prediction) :使用机器学习构建模型,预测用户偏好或行为(例如推荐酒店或生成商品建议)。
- 部署(Deployment) :将模型部署到真实环境中,与用户交互,并开始影响决策。
- 影响评估(Impact evaluation) :使用因果推断方法,测量该模型对关键绩效指标(KPIs)的真实影响。
生成式 AI(GenAI)模型的兴起,进一步凸显了将预测推断与因果推断结合起来的必要性。许多公司在 GenAI 上投入巨大,但随后却未能衡量其业务影响。现在,这听起来也许会让你感到惊讶,因为我们明明知道有一个完整领域可以测量这类效应:因果推断。确实如此。因果推断可以用来衡量“首次部署”相对于“没有 AI 时”的影响。在第二阶段,它还可以用于优化。
你有了一个新版聊天机器人或推荐算法?你可以使用因果推断来确认:这个新模型是否真的带来了更好的业务结果,以及根据估计出的收益来看,部署它的成本是否合理。仅仅说“它能用”显然远远不够。涉及商业决策时,你需要精确知道它的影响,尤其是财务回报,才能确认这项投资值得做。
而且,这类分析可以远远超出财务回报。一个 GenAI 聊天机器人也许能以惊人的准确率回答用户问题,但它的部署会如何影响整体客户满意度、问题解决时长,或者客户信任?要回答这些问题,都需要因果推断方法。
预测推断与因果推断之间的区分及整合之所以关键,有几个原因:
- 最大化 ROI(投资回报) :企业需要确保其部署的模型能创造可衡量的价值。通过评估 ML 系统的因果效应,组织可以把资源分配给真正带来实质改进的模型和功能。
- 理解系统性影响(systemic effects) :因果推断让我们不仅能优化短期结果(如点击率),还能够揭示长期影响(例如由于过度定向或标题党策略造成的客户流失;见第 8 章关于“选择合适指标”的部分)。
- 建立信任(Building trust) :因果评估能提供关于 AI/ML 系统影响的透明性,帮助企业获得利益相关方、监管者和用户的信任。
我们已经看到,这两类推断服务于不同目的,而且应当结合使用。那么,什么是因果 AI 呢?
统一:因果 AI——一个令人兴奋的新兴领域
过去几年里,一个叫作因果 AI(causal AI) 的新领域正在成长,并吸引了越来越多的关注。它是传统因果推断与 ML 更灵活建模能力的一种优雅融合。但在我看来,这个新名称也带来了一些混淆。人们看到“因果 AI”,就以为可以不加思考地直接把 ML 算法用在因果问题上,而这可能会导致麻烦——正如我们前面看到的,也正如我在咨询工作中亲眼所见。
因果 AI 的本质,并不是盲目把 ML 和因果推断混在一起,也不是用前者去直接测量“原因”。它更像是:先应用因果推断原则,再在某些任务上撒一点 ML,例如处理高维数据,或识别对某种处理反应不同的子群体。
如今,因果 AI 主要有三类应用场景。让我带你看一看这几个场景,在这些地方,因果 AI 相比传统方法能带来强有力的提升。
1)识别异质性处理效应(HTE)
首先,传统因果推断通常聚焦于平均处理效应(Average Treatment Effect, ATE) ,也就是某项干预在样本上的平均影响。虽然这是一个很好的起点,但“平均值”有时会误导人。有时候,一项营销活动、一项政策或一种药物,在总体上看似效果很好;但如果你放大看,会发现这种效果主要由某一个子群体驱动。效应可能对一个群体非常强、非常正向,但对另一个子群体却是破坏性的。如果你只看平均值,这种异质性就会被隐藏起来。说到底,你可能正在做一个会对某个子群体产生负面影响的决策(例如男性 vs 女性、某些年龄段、或特定地区)。
因果 AI 可以通过高效估计**异质性处理效应(Heterogeneous Treatment Effect, HTE)**来揭示这些差异。换句话说,它让我们能够发现:同一种处理是否会对不同子人群产生不同影响,并以数据驱动的方式自动识别这些不同子群体。
实现这一点的一种流行方法是 causal forest(因果森林) ,该方法由斯坦福大学的 Susan Athey 等人发展(可参考她的免费在线课程 Machine Learning & Causal Inference: A Short Course)。这种策略对于优化和更精准地定向干预尤其有用。你不再只瞄准“平均消费者”,而是可以针对不同子群体做个性化策略,从而实现更高效的干预。
让我举一个受真实商业案例启发的例子(具体案例我不能公开分享)。这个业务的核心是一款 App。团队持续尝试改进 App 并发布新功能。如果你在用户群上测试这些新功能,可能会看到正向效果。用户群中较大一部分可能是熟悉 App 的老用户,他们很容易适应新增的功能。但在某个时候,一个较小却非常重要的用户群体会被这种策略负面影响:新用户。他们一来到 App,发现系统过于复杂,于是就离开了。这是一个巨大的风险,会深刻动摇 App 的长期增长。
如果你只关注平均效应,由于老用户占比可能比新用户大得多,你就很难捕捉到这个影响。因此,用因果 AI 去研究不同子群体的异质性效应,就不只是一个“技术上很炫”的工具,而是会对你的业务增长产生实质性影响。
2)处理高维数据与复杂关系
在我的实践中,我看到的因果 AI 第二大应用,是处理高维数据(high-dimensional data) ——也就是存在大量潜在混杂因素和复杂关系的情形。
说实话,这有点技术性,但我尽量用易懂的方式解释。当你构建一个因果推断模型时,你必须指定变量之间的关系——比如混杂因素与结果之间的关系。更具体地说,你需要对所谓的函数形式(functional form) 做一些假设:它是线性的、二次的,还是别的形式。这件事做起来很痛苦,而且可能带来问题。比如,数据科学家或研究者可能会尝试多个模型,然后挑选那个能给出自己最喜欢结果的模型,即便并没有客观理由支持这种选择。
为了避免这种情况,我们可以让 ML 以数据驱动的方式去找出更合适的函数形式,因为 ML 在处理高维数据、挖掘复杂函数关系方面非常高效。一个可用于此的工具叫作 double machine learning(双重机器学习) 。
3)用 GenAI 帮助处理因果问题
我会归入因果 AI 的第三个、也是最后一个主要主题,是:如何用 GenAI 来帮助我们处理因果问题。
GenAI,尤其是大语言模型(LLMs)如 ChatGPT,在提出潜在因果路径、以及挑战因果主张方面,出人意料地擅长。围绕这个方向的研究正在不断增长。很早以前,就在 2023 年 3 月 ChatGPT-4 刚发布时,我就利用这种能力做了一个免费应用。它是本书的配套应用——Causal Mindset app,可以在 www.thecausalmindset.com/app 免费使用。你可以输入任何因果主张,它会帮助你挑战这些主张。下面的框中有一个日常生活例子。
Causal Mindset app 示例
我最早用这个 App 做的测试之一,和我的健身训练计划有关。当时我在准备一场健身比赛,想提升划船机(rower)表现。我向教练请教,他给了我一个很扎实的训练计划,并让我当天先测一次 1 公里全力成绩,一个月后再测一次,以比较进步。
当然,因为我总是在思考因果关系,我对他的第一反应是: “我怎么知道差异是这个训练计划导致的?” 我可以马上想到很多其他同时影响表现的因素。对我来说这几乎是自动反应,但对很多人来说未必如此。所以,我做了这个 Causal Mindset app。这个 App 底层依赖 ChatGPT,但我本质上是给了它一套“如何质疑因果关系”的指令,而这套内容其实就是本书的核心。
下面是这个例子的结果:
我的提示词(prompt):
我跟了一个划船训练计划一个月。今天测试时我划得更快了。是这个计划的功劳吗?Causal Mindset app 的回答:
快速反馈——主要缺陷
核心问题是:你只做了前后两次测试。这就像你试了一周新的划船技术,看到分段成绩变快了,就直接假设新技术是原因——却没有问一句:你是不是本来也会进步?这是一个典型的“前后对比(before-after)陷阱”。没有对照组(例如像你这样但没有跟这个计划的人),我们不知道你的提升来自:
- 训练计划
或者- 自然进步(因为任何规律训练在早期都会让身体快速适应)
- 对测试流程更熟悉(你可能划得更快,是因为你对划船机测试本身更熟悉了)
- 与该计划无关的生活方式变化(睡眠更好、饮食改善、动力突然变强)
还有别的可能吗(潜在混杂因素)?
除了训练计划本身,下面这些因素也可能解释你的进步:
- 练习效应(Practice effect) :重复测试通常会带来更好成绩。你的大脑和身体会逐渐适应测试形式。
- 整体身体活动量(General physical activity) :你在划船之外是否增加了活动量(比如骑车、走路更多)?
- 营养/睡眠(Nutrition/sleep) :训练期间你是否开始吃得更健康,或者睡得更多?
- 动机与努力程度(Motivation and effort) :你是否因为预期会看到进步,而在测试中更努力?
- 安慰剂效应(Placebo effect) :相信这个计划有用,可能真的会让你更用力。
分析:这个问题有多严重?
主要问题:没有对照组。
这非常关键。训练早期的提升往往会发生,因为新手增益(novice gains)。你的身体在任何训练计划开始阶段都会快速适应,不管该计划本身是不是“最优”的。这种偏差会放大你感知到的效果。你可能会以为 100% 的提升都来自训练计划,但现实中可能只有一部分是。
例如:
如果你 1 公里成绩快了 10 秒,也许其中 4–6 秒来自训练计划带来的真实体能提升,而另外 4–6 秒来自测试熟悉度、动机和生活方式因素。
但没有对照组,这些都只是推测。结论
你的进步是真实的,但你无法有把握地把全部进步都归因于这个训练计划。最可能的情况是:训练计划确实有贡献,但练习效应、动机和自然适应也起了作用。要进一步判断:
- 随时间跟踪更多数据(心率、RPE 主观用力程度、分段成绩)
- 在停止结构化划船训练一段时间后重复测试,看看你保留了多少体能
- 将你的进展与基线体能相近的其他人进行比较
现在,甚至已经出现了一个名为 pywhyllm 的新库,让你在不写 Python 代码的情况下也能调用这类因果知识。不过请注意:无论使用我的 App,还是像 pywhyllm 这样的包,始终质疑输出结果都至关重要。生成式 AI 在这个语境下非常适合用于头脑风暴和提供思路,但它并不知道“真相”,而且可能给出不准确的建议。因此,就像面对任何 GenAI 输出一样,请花时间评估答案质量。
当我在写这本书时,我完全可以想象因果 AI 这个领域会持续增长,而且越来越多传统因果推断技术正在借助 ML 得到增强。然而,正如我之前解释的,因果 AI 始终是从传统因果推断方法与概念出发的。因此,本书的核心理念并不会过时。恰恰相反,对这一领域的兴趣正在上升,而因果 AI 的存在只会让它更具吸引力。
案例研究
让我们把已经学到的内容应用起来,在我们贯穿全书的三个案例研究中,探索预测推断与因果推断的潜在应用。
案例研究 1:冷水澡与健康
我们可以如何使用预测推断与因果推断,来研究“冷水澡有益健康”这一说法?每种方法分别会告诉我们什么?
参考答案(Potential answer)
预测模型可以识别:洗冷水澡的人是否倾向于拥有更好的健康状况。这种相关性对保险公司这类需要预测个人健康水平的机构来说可能很有用。
然而,这并不能证明因果关系,因为也可能只是更重视健康的人更倾向于去洗冷水澡。
要回答关键问题—— “洗冷水澡是否真的会导致健康结果改善?” ——则需要使用因果推断。
案例研究 2:瑞士节能宣传活动(Energy sobriety campaign)
请思考与瑞士能源消费相关的预测推断与因果推断的潜在用例,并提出应用场景。
参考答案(Potential answer)
预测推断可以用于通过分析热成像图像来识别隔热性能差的房屋,并找出热量散失的位置。这是一种非常有力的方式,可以先标记出潜在问题,再交由人工评估,进而识别需要翻修的住房。
因果推断则用于回答后续那些关键的业务问题:使用这个预测模型是否真的降低了能源消耗,或降低了检测成本?此外,因果推断对于评估那项独立的节能宣传营销活动的影响也至关重要。
案例研究 3:空气污染与呼吸系统疾病
请在空气污染与呼吸系统疾病这一背景下,为预测推断与因果推断分别提出应用场景。
参考答案(Potential answer)
预测建模可以帮助预判污染上升。例如,一个 AI 驱动系统可以预测高污染日,并自动触发提醒,推荐预防措施,如佩戴口罩或避免在户外跑步。
随后,因果推断将用于衡量这些建议对健康、死亡率以及呼吸系统疾病患病率的影响。除此之外,因果 AI 还可以帮助揭示这些效应的异质性,识别哪些政策对特定人群或地区最有效。最后,它对于理解污染本身的成因也同样必不可少。通过识别主要贡献因素,政策制定者可以设计干预措施,从源头减少污染。
正如这个例子所展示的,预测型 AI 支持的是一种被动响应策略(对预测出的风险做出反应) ,而因果推断赋能的是一种主动策略(处理底层原因) 。
总结
在本章中,我们处理了“预测”与“因果”之间这一关键区别——这是做出可靠数据驱动决策的基础概念。你已经学到:预测型 AI 在预测方面极其强大,但它依赖相关性与模式识别,因此无法理解“为什么(Why)”。另一方面,要回答更具战略意义的问题—— “为什么会发生?我们能做什么?这个决策或行动的影响是什么?或者,这个问题的原因是什么?” ——则需要因果推断。
我们还探讨了术语的重要作用,以及把预测误解为因果会如何导致错误策略,并结合医学、媒体与商业中的真实例子进行了说明。一个特别重要的概念是:我们应该把这两者结合起来使用。尤其是,如果你想知道 AI 工具对业务的影响,你就需要使用因果推断。最后,我们还窥见了因果 AI 这一令人兴奋的前沿领域,看到它如何结合两个领域的优势,来增强因果推断中的某些技术环节。
既然我们已经充分理解了因果推断的必要作用,接下来我们将看到这枚硬币的另一面——也更“黑暗”的一面:证明因果关系是一项困难的任务。在本书的下一部分中,我们将在进入第三部分解决方案之前,先揭示这些挑战。