想象一下,如果你不理解因果关系,会发生什么。你会去碰一个很烫的平底锅,即使被烫伤之后,你也可能还会再去碰。人们过马路时不会预判迎面而来的汽车可能刹不住车,而那场不可避免的碰撞可能会让他们付出生命的代价。你觉得这听起来很疯狂吗?然而,令人惊讶的是,现实中确实有很多决策是在不理解因果关系的情况下做出的——这些人忽视了因果推断的科学,从而导致代价高昂的错误。理解因果关系对于规划、预判以及具备前瞻性至关重要。
本章将为你的因果思维建立必要的基础。我们将先从一个关键问题开始探索:我们究竟是如何知道那些我们相信为真的事情的?这将引导我们区分薄弱证据、简单相关性,以及那些指向真实因果联系的线索。
本章的最终目标,是让你能够理解整体图景,并清楚理解什么是因果关系、它为什么有用,以及如何用图示来表示它。掌握这些基础概念至关重要,因为本书后续的每一章都建立在它们之上。尤其是,我们将看到,绘制因果图通常是因果推断的第一步,并且在本书中会反复进行很多次。
所以,准备好开始攀登,并迅速抵达热情的高峰吧。本章我们将涵盖以下主题:
- 因果关系导论
- 因果与结果的可视化
因果关系导论
我之所以痴迷于因果推断,是因为我在公共政策、商业和生活中都看到了同一种模式:人们在做重大决策时,依据的是观点和相关性,而不是因果证据。
以 AI 为例。对 AI 的投资规模非常庞大,很多时候只是被“错失恐惧”(FOMO)所驱动,而许多组织至今仍然回答不了那个最根本的问题:它到底真的有效吗? 令人惊讶的是,其实有一种方法可以可靠地回答这类问题,但它常常被忽视。它叫作因果推断。这本书将为你提供理解它的工具,帮助你更好地质疑这个世界,并通过区分强因果证据与较弱的相关性主张,提升你的决策能力。
当然,这远不止于评估 AI 的影响(这只是我当前最主要的关注点之一)。我们每天问自己的大多数问题,其实都有一个共同主题:它们都关乎因果关系。
是什么在推动气候变化?停止销售燃油车是否会减少排放并帮助防止气候进一步恶化?向较贫穷国家提供发展援助到底有没有帮助?COVID 封锁措施带来了哪些影响?AI 对我们的工作有什么影响?辞职会如何影响一个人的职业发展、财务稳定和幸福感?我是不是应该停止吃披萨来减肥,还是说这只会让我一直挨饿、变得更痛苦?
这一串看似多样的问题恰恰说明:理解因果关系,对于从应对气候变化到追求幸福人生的各种议题都至关重要。
在唐纳德·特朗普与埃隆·马斯克的一次讨论中,特朗普说:“在我任期的最后一周,我们的非法移民数据是最好的,也就是阻止移民这件事,达到了最低水平。”很多人会据此得出结论:原因是特朗普的移民政策。然而,特朗普的总统任期结束于 2021 年 1 月,当时正值 COVID-19 疫情期间,也是在全球封锁持续一年之后。那么,这一下降的原因究竟是什么?是特朗普的政治选择、COVID-19、两者共同作用,还是别的什么?理解真正的原因,是做出更好决策、避免错误信息的核心。这本书将帮助你照亮这类问题。
多年来,我一直痴迷于这些问题,尤其痴迷于:我们如何才能可靠地识别原因。我还记得小时候,一些情境就会让我反复纠结这个问题;后来,当老师声称某些因果联系时,我总会想:他们是怎么知道的? 长话短说:大多数时候,他们其实并不知道。难怪我小时候最喜欢的一句引言之一,来自法国喜剧演员米歇尔·科吕什(Michel Colucci,也叫 Coluche):“很多人都错,并不会让他们变对。”
有一天,在我本科刚开始的时候,我接触到了“因果推断”这个概念。那一刻,仿佛有什么东西突然对上了。我彻底上头了。我会兴奋地冲回家,迫不及待地读更多关于它的书。
从那以后,我投入了无数个小时、白天、夜晚和多年时间,去学习、教授和实践因果推断。我获得了博士学位,并用这些工具来回答复杂的因果问题:向非洲输送武器会如何影响冲突发生的概率(见 Gallea, Q., 2023, Weapons and war: The effect of arms transfers on internal conflict)?COVID 封锁对病毒传播有什么影响(见 Bonardi et al., 2023, Managing Pandemics: How to Contain COVID-19 Through Internal and External Lockdowns and Their Release)?这些问题的答案发表在顶级同行评审科学期刊上,并与政策制定者进行了讨论。
这些经历让我意识到,因果推断对于解码世界、做出有依据的决策是必要的;同时我也意识到,这些概念在现实中被广泛地不了解、忽视或误解。
因此,我决定传播这方面的知识:在不牺牲严谨性的前提下,让它更易于理解。我已经向大约 15,000 人教授过统计学和因果推断,这些人从经济学本科生到资深医学研究者都有,也包括企业高管(C-suite)以及大型公司的数据科学家。
但这还不够。直到今天,我仍然每天都在看到被滥用的因果主张、新闻中的错误信息、政治辩论中的误导,甚至包括已发表的科学论文,以及社交媒体上的各种说法。这就是我写这本书的原因:希望让这些知识更容易被获取,打破现状,并赋能人们做出更好的决策。
让我们暂停片刻,看看我们持有的一些最简单的信念。比如,我们怎么知道重力是真实存在的?大多数人会说,我们在学校学过;物体被放手后会下落;行星绕太阳运行是因为引力作用。然而,对大多数人来说,模糊记得老师的解释,或者在课本里读到重力,本质上仍然是别人的证据。归根结底,若要真正说服自己,我们要么必须亲自收集数据、做实验(让物体下落、测量加速度等等),要么就必须信任一个我们认为可靠的过程(比如科学研究)。而这应该扩展到我们所持有的每一种信念——从日常知识,到关于地球、身体或社会的最复杂问题。
再看一个像烧水泡茶这样日常得不能再日常的事情。我们怎么知道盖上锅盖会让水更快烧开?可能是因为我们两种方式都试过,并观察到蒸汽积聚得更快;也可能是父母告诉我们这是对的。但如果我们从未亲自验证过,我们可能只是在遵循传统。我们以为这是“显而易见”的,但它真的显而易见吗?当我们开始意识到自己有多频繁地在没有任何验证的情况下接受某些说法时,我们就会发现,我们所谓的“知识”有多大一部分依赖于二手、未经验证的信息。
再考虑一个没那么琐碎的例子:我们怎么知道某款家用清洁剂真的像标签宣称的那样,能杀死 99.9% 的细菌?我们信任品牌、广告,或者幕后监管机构。但我们自己是否亲自做过、或见证过任何培养皿和细菌培养实验?
大多数时候,我们很自然地会信任权威人士、朋友或家人告诉我们的事。然而,历史上充满了后来被证明错误的“确定无疑”。医学曾一度认为放血疗法对很多健康问题都有益,从头痛到发烧都适用。直到系统性观察出现,医生开始追踪病人结局,并比较放血与不放血人群的差异,人们才发现这种做法往往弊大于利。
更让人谦卑的是,整个文明都曾建造宏伟建筑来取悦他们认为会带来丰收的神。干旱或恶劣天气会被解释为需要更多祭祀的信号。但如果真正的原因只是与洋流相关的周期性气候变化呢?几个世纪里,没有人系统而精确地测量天气模式,因此也就没有数据来纠正这种信念。从很多意义上说,我们的祖先当时是“确信无疑”的,而这种确信代价极其高昂。
今天,我们喜欢认为自己比那些实行放血疗法或向雨神祈祷的人先进得多。确实,我们拥有更多数据和技术。然而,如果我们审视自己最日常的决策,就会发现其中很多仍然只不过建立在未经检验的假设或传统之上:
- 饮食潮流:为什么那么多人会因为某位朋友信誓旦旦地说有效,就一夜之间戒掉整个食物类别(如碳水或脂肪)?“我知道这有效,”他们会说——但他们有系统地测试过吗?还是只是碰巧在同时开始了新的锻炼计划,于是体重刚好下降了?
- 职场做法:一个经理看到商业文章里的某个“最佳实践”,在没有确认其背后是否有稳健的因果证据之前,就直接推行,这种情况有多常见?也许那一做法在某家高科技公司有效,是因为一些并不适用于小型营销机构的原因;也可能只是被挑选出来的成功案例。
- 科技产品:即便在科技世界里,我们很多人也会基于品牌忠诚或道听途说,认定某些手机或笔记本品牌“最好”或“更耐用”。我们真的看过成千上万用户的寿命数据吗?还是只是依赖少数个人轶事?
在每一个例子中,我们“以为自己知道的”,与我们真正验证过的(或者至少能被稳健流程验证的)之间,都存在一道鸿沟。填补这道鸿沟,靠随口的观点或单一相关性远远不够。它需要系统性的、基于数据与实验的探究——这正是因果推断的核心过程。
为什么要费这个劲?因为这样做时,我们挖掘出来的是真正的原因,而不只是虚假的相关性。使用本书介绍的系统方法、超越猜测的这一过程,就是因果推断的基础。也正是用这种方式,在更大尺度上,科学家测试新药,工程师设计更安全的汽车,政策制定者(应该)评估税制改革是否有益。
也许有人会问:为什么要把一切都拿来仔细审视?我们直接依赖听来的说法、信任专家,生活不是更轻松吗?在很多情况下,我们确实可以、也确实会依赖专家。然而,即便是领域专家,也不一定是因果关系方面的专家,而且错误会发生。因此,盲目信任任何因果主张的代价可能很高:
- 健康:关于某种药物疗效的错误信息,可能让人白白花钱,甚至更糟——延误正确治疗
- 政治:相信某项政策会“修复经济”或“保护就业”的未经验证主张,可能导致出台的法律恰恰产生与承诺相反的效果
- 个人理财:金融“导师”可能承诺某种策略能快速致富,但它也可能让人损失积蓄
- 商业决策:公司可能基于竞争对手的轶事式成功故事,采用一个炫目的 AI-first 战略,结果却因为市场尚未准备好、质量下降(尽管生产率提高了),导致自身销售暴跌
简言之,不去追问因果关系,会让我们暴露在伤害风险之下——无论是财务上的、身体上的,还是社会层面的。有时,一个错误信念只是浪费我们一点时间;但有时,它会引发在个人或社会层面都后果巨大的事件。
这并不意味着我们需要为每一个琐碎决定都亲自做实验,或查阅可靠因果证据的文献综述。日常生活需要捷径。而这本书正是在填补这些空白。首先,它提出了一种结构化方式,让你在无法或无需进行正式实验时,也能高效地处理问题。其次,对于那些可能带来重大后果的“大决策”,如果条件允许,我们就应该正确使用因果推断,而第 5 章和第 6 章将向你展示这些进阶情境的方法。
培养这种思维方式,并不意味着我们会变成愤世嫉俗、谁也不信的怀疑主义者。相反,这意味着我们会成为知识发现的主动参与者,愿意提出好问题,并对世界如何运作保持好奇,同时接受并评估不确定性。
但先从最基本的开始:让我们定义“因果关系”。因果关系(causality) 指的是原因与结果之间的关系。它的核心思想是:一个事件或行为可能导致另一个事件或结果。换句话说,因果关系关注的是:事情如何发生,以及为什么发生。
你能把因果推断讲给我爷爷奶奶听吗?
这是一个我经常被问到的问题。我觉得这是一个非常方便的切入点,能够说明:这个主题其实是我们生活的基础组成部分,但真正系统学习过它的人却不多。所以,我想和你分享一下,我会如何向我的祖父母解释因果推断:
“你做的任何决定,都是建立在因果假设上的。你看,你刚刚把番茄种在花园这个角落,因为这里阳光最多。你这么做,是因为你知道番茄需要很多阳光才能长得好、味道好。所以你的行动是基于一条简单的因果链:阳光 → 好吃的番茄。对于番茄来说,这是常识,而且很直观。
而且,你种了几十年菜,也知道、也很可能观察到:如果你年复一年都把番茄种在同一个地方,它们往往会越长越小。这是另一种因果效应——如果不和其他作物轮作,番茄会耗尽土壤中的养分。
所以,这些因果关系对你来说很重要;对更大的决策也是一样。
你喜欢大自然,也喜欢你的花园,对吧?那现在想想气候变化。我们怎么知道是人类导致了气候变化?我们怎么知道哪些政策会产生正面或负面效果?
所有这些问题都很复杂,都需要谨慎的因果分析,否则就可能适得其反。不使用因果推断,我们的决策可能不会比掷骰子、看星座、观星象更好多少。
所以现在,让我去烧水泡茶,再拿点饼干来,因为我觉得我观察到:午饭后我这么做,对你们的心情有一个正向的因果影响。”
通过从园艺到商业决策的日常例子,我们已经看到,理解因果关系为什么如此基础且重要。这种直觉性的理解是一个很好的起点,但要真正建立因果思维,我们还需要一个更正式、更精确的定义。在下一节中,我们将更严格地定义因果关系,并理解数据、领域知识和科学研究在追求因果证据过程中的角色。
什么是因果关系?
要回答这些关于因与果的问题,并测量和识别因果效应,我们可以依赖一个科学领域:因果推断(causal inference) 。
因果推断有两个关键作用。
第一,它让我们能够从过去发生的事件中评估因果关系。正如我们将在本书中反复看到的,你可以使用数据和精确的方法来测量因果效应。理解过去发生了什么,有助于我们获得关于因果关系的知识。然而,大多数时候,你需要这些信息,是为了做未来的决策。
因此,因果推断的第二个作用,就是帮助你预测:如果你做出某个选择而不是另一个选择,会发生什么。你需要关于某种药物效果的可信证据,才能向别人推荐它;你需要关于某次营销活动、战略决策或政策潜在效果的可信估计,才能做出知情决策。通过理解过去数据中的因果关系,你就可以在特定条件下预测潜在结果,从而实现更好的规划与策略制定。
因果思维需要复杂的认知能力。在更高级的情境中,因果思维需要复杂的想象能力(见 Pearl, J. and MacKenzie, D., (2018), The Book of Why: The New Science of Cause and Effect)。人类是面向未来的,能够想象自己行为的未来后果。我们不断超越自身经验和对“关联”的观察,去推断因与果。我们可以为复杂情境想象一长串后果链条,这些都远远超出个人经验:
如果我们停止使用私家车,会怎样?交通拥堵可能减少,车辆效率可能提高,城市里的停车空间会占得更少。城市中可能出现更多公园和绿地。这些车辆需要考虑家庭使用(如配备婴儿座椅)或轮椅使用者需求,这可能推动车辆标准化,等等。
我们做的每一个决定——无论作为个人、组织还是政府——都建立在这样一种假设之上:某些行动会导致某些结果。作为个体,我们不断做决定,是因为我们预期会有某些后果。我们可能决定减少肉类摄入或购买电动车,以减少自己的碳足迹;我们可能因为午饭吃了披萨而决定去健身房,希望体重维持稳定;我们可能在工作上投入大量精力和时间,期待加薪;我们甚至可能再喝一杯伏特加,觉得这样自己跳舞会更好。管理者每天也都在做决策,并期待这些决策给公司带来结果。比如停止居家办公,因为相信这会提高生产率;或者更改网站首页,以提升订阅转化。政府同样如此,它们制定政策,希望把国家或地区朝某个方向推动。
然而,正如我们将在本书中看到的,为这些关系找到因果证据并不容易。而且,如果没能正确评估某种关系的因果性,还可能带来负面后果。让我再用几个例子来说明。
如果你把燃油车换成一辆新的电动车,会怎样?你因为拥有这辆“绿色”汽车而感觉很好,于是比以前更频繁地使用它,甚至不再乘坐公共交通(这被称为反弹效应)。那么,这一改变对环境的净影响是什么?考虑到给汽车充电的电力来源不一定是可再生能源、电池处理仍然是环境问题、以及你把原本通过更环保方式完成的出行(如步行或公共交通)替换成了开车,那么这个选择对环境的净效应可能反而是负面的。
再用一个关于公司的假设情境,来说明没能正确识别后果的代价。某个新兴流媒体服务的市场团队对 app 首页做了重大改版。他们决定展示“观看量最高的电影”,而不是“最新上线的影片”。一个月后,管理层观察到订阅率下降,于是决定开除整个市场团队。但如果这次改版恰好发生在另一家流媒体服务上线的同时,或者恰好赶上一个特别晴朗的月份,人们更少待在家里看电影呢?也许市场团队做得非常出色,实际上避免了订阅量更大幅度地下滑。但如果没有对因果关系进行恰当评估,就贸然下结论,是危险的,也可能适得其反。
整体图景
我们对某个行动后果的预期,依赖于一些假设性的因果链条,这些链条来自我们的经验、读过的内容或听来的说法。这些证据可能有强有弱;它可能是一条个人轶事、一篇社交媒体文章,也可能是数十年的科学文献。我们赋予这些证据的权重,应当与其可靠性成正比。不幸的是,人类只有有限理性,而且我们都受到偏差影响,这最终会使我们错误地排列这些证据的优先级。
因此,只要有可能,我们就应该优先采用客观、可靠的信息源,以降低得出错误结论的风险。话虽如此,正如本书将展示的,科学虽然往往是我们能拥有的最好工具,但它也并非刀枪不入。运用本书中的知识,将帮助你区分弱证据与强证据——无论这些证据来自科学研究,还是其他来源。其次,增加信息来源并主动寻找相反观点,有助于获得更宽广的视角。特别是,从多个来源获取信息,有助于应对我们在这一语境下最可怕的敌人之一:我们自己,以及我们的确认偏误。确认偏误是一种认知偏差,指我们倾向于关注并更容易记住那些支持自己原有信念的信息。
那么,如果我们连自己都不能完全信任,我们还能信什么?我的答案很简单:质疑一切——从你自己的信念,到科学研究,甚至包括我在这本书里写的内容。作为前科学研究者,我绝不会因为某个结果或主张发表在《Science》或《Nature》这样的顶级期刊上,就直接相信它。我会去看那篇文章,试着理解它的结论、模型、数据和局限性。科学研究是人做的,因此天然是不完美的。不过,毫无疑问,它仍是我们目前最好的、最可靠的信息来源。相比社交媒体上的某个网红说法,我对发表在像样期刊上的科学文章的信任显然要高得多。但即便如此,我仍然会去质疑它。正如我们在后续章节会看到的,几乎每项研究都有局限和弱点。因此,我会保持怀疑态度,也建议你这样做——除非有广泛证据在不同情境中、由多种可靠来源得出相同方向的结论。
不幸的是,这种做法有两个主要问题。第一,对很多人来说,质疑科学论文并不可行。第二,在许多情况下,文献中可能根本没有答案,或者没有共识,又或者我们根本没有机会深入研究。好消息是,这本书正是要为这些问题提供解决方案。正如你将看到的,本书分享的概念将帮助你挑战一些科学论文中的结果和主张。需要说明的是,多数时候问题不在科学论文本身,而在于一些人对研究结果的滥用式解读。此外,这本书的一个主要目标,就是教会你“因果思维框架”(Causal Mindset Framework):这是第 5 章中的一个五步法,它能让你以结构化方式,在实时情境下挑战因果主张和相关性说法。
现在,如果你已经能用本书中的概念去质疑科学研究,想象一下你会如何看待政治辩论、商业决策或新闻报道。利用我们的有限理性,以及我们常常对因果关系的无知,很多人会用简单关系拼出一个故事,以影响我们的观点,争取选票或支持。错误信息无处不在。如今,要识别“另类事实”更加困难,因为 AI 让任何人都可以免费、在几秒内生成高质量文本。人们不再需要一定程度的教育或专业能力,也能使用复杂语言,把文字写得清晰且有说服力。因此,这本书旨在为你提供可操作的工具,让你在这片信息与错误信息的海洋中拥有判断力与行动力。
很多人喜欢确定性。我和一些记者、政治人物的私人交流,让我看到了这个问题。人们往往认为:要么你对某件事有确定答案,要么你就无能/一无所知。但大多数时候,所谓“确定性”要么是谎言,要么是某些人为了掩盖自己难以接受知识缺口与不确定性而做出的“英雄式”断言。我深信,如果从小学开始教授统计学,将有助于人们更好地面对未知。你不 100% 确定某件事,这是完全可以的。这并不意味着你无能。恰恰相反,这说明你懂得足够多,因此知道自己不知道什么;同时你也足够谦逊,愿意接受这一点并把它说出来(还记得邓宁—克鲁格效应吗?)。统计学就是处理不确定性的艺术——这是一项极其让人谦卑、又极其实用的能力,帮助我们在世界中导航。如果你听过我的演讲、读过我的帖子、文章或这本书,你会发现我大多数时候会使用这样的表达:似乎、风险很高、倾向于、根据我的经验、轶事性证据,等等。简而言之,我很少会一概而论,说某件事 100% 就是某种样子。这要看情况。 有些人会因此感到不适,转而去别处;也有些人会留下来,与我交流、合作,并欣赏这种诚实立场。我很认可这种“自我筛选”的过程,也接受并非所有人都会喜欢这一点。
当然,幸运的是,在某些领域,我们确实可以建立更高的信心。要做到这一点,我们必须超越观点,收集数据,交叉验证,应用因果推断,并最终依赖科学研究。现在,就让我们来看看,在可靠回答复杂问题时,这些要素各自扮演什么角色。
“笨数据” versus 我们有限的感知
一方面,数据本身基本上是“笨”的——它并不自带因果感知。另一方面,我们具有有限理性,并且会受到大量偏差影响。前面提到的确认偏误只是其中一个例子。其他偏差还包括注意偏差(attentional bias) ,也就是我们倾向于关注某些元素而忽略其他元素。比如,当你买了一辆新车后,你会突然开始在路上到处注意到同款车型。这种注意力聚焦可能使我们高估某类事件的频率,同时低估其他事件。
此外,我们自身经验是有限的。如果只基于个人经验构建知识,我们对世界的理解会相当狭窄。但我们通过学习他人经验来扩展知识的能力,有时也会反噬我们。你是否听过“高中辍学生在生活中往往更成功”(比如比尔·盖茨或史蒂夫·乔布斯),或者“截瘫患者经常会重新行走,尽管诊断说不可能”这样的说法?这就是可得性偏差(availability bias) 的例子:由于我们严重依赖那些容易获得的信息,我们对现实的感知被扭曲了。关于高中辍学生成功、或严重事故后重新行走的故事更容易被传播,而其他情况则鲜少获得关注。
我还想在这里补充另一个有意思的偏差:空想性错视(apophenia) 。这是一种心理偏差,指我们倾向于在本不相关的事物之间感知到有意义的模式。如果我们画出一张由随机点构成的散点图(如图 1.1 所示),我们往往会猜测其中存在某种趋势,而且不同的人可能会看到不同的“规律”,因为这本身相当主观。
图 1.1:如果不进行恰当分析,我们往往会想象出一种关系,即使它完全是随机的
因此,与其在“数据”和“我们的知识”之间二选一,我们更应当将二者结合起来,让彼此弥补对方的局限。使用数据能够拓展我们的视野,帮助我们超越有限的个人经验。与此同时,我们所说的领域知识(domain knowledge) ,又赋予我们能力去批判性地评估和质疑数据中观察到的关系。假设你观察到,在非洲各国之间,日照暴露量与已安装太阳能光伏板数量竟然呈现负相关。你的领域知识可能会帮助你意识到:当温度过高时,光伏电池效率会下降。因此,这一事实可能部分解释了前述负相关。此外,收入也可能起作用,因为更炎热地区的平均收入可能也更低,从而用于能源转型投资的资源更少。
所以,我们面临一个两难:数据是“笨”的,而我们的感知是有偏的。正如本书将反复说明的,好的因果推断需要领域知识与技术知识两者兼具,才能确保我们应对这些弱点。
因果推断的第一步之一,是表示出因果路径。将这种表示形式规范化,并真正把不同部分之间的关系画出来,将成为我们这段学习旅程中的核心环节。为此,我们接下来将认识有向图(directed graphs) 。
因果与结果的可视化
我们可以用图来绘制因果关系。图中的箭头表示图中两个不同元素之间效应的方向。在因果推断领域,这类图被称为有向图(directed graphs) 。这个名字本身就很直观:有向图就是用箭头表示因果关系方向的图。例如,如果下雨会导致地面变湿,你就可以表示为:雨 → 湿地面。
进阶技术细节:无环性(acyclicity)
一种用于表示因果关系的常见模型叫作有向无环图(Directed Acyclic Graph, DAG) ,在文献和因果推断领域被广泛使用。DAG 带有一个额外假设,叫作无环性(acyclicity) ,它会阻止环或回路的出现。所谓“环”,是指你沿着箭头走,最终可以回到某个节点,从而形成闭环。无环性假设禁止这种情况,尤其也禁止双向箭头的使用。
这个假设的目的,是为了简化问题。没有环时,我们更容易识别前后关系,从而在概念层面或数学层面更容易处理这样的模型。不过,如果放宽无环性假设,就可以表达现实中经常出现的相互关系。
例如,饮酒可能导致抑郁,而人们也可能通过饮酒来应对抑郁。因此,这种关系可以简单表示为:饮酒 ↔ 抑郁。实际上,一旦把时间因素考虑进去,这种相互关系就可以分解为一条因果链:t-1 时点的饮酒 → t 时点的抑郁 → t+1 时点的饮酒(其中 t 表示时间期)。关于这一点的深入讨论,可以参考 Reisach 等人的 The Case for Time in Causal DAGs。不过在实践中,我们常常可以在概念上用时间进行分解,但数据会限制这种能力。在我读博期间,我研究过武器对战争的影响。虽然这种相互关系并非瞬时发生,但我使用的是年度数据,在一年这个粒度内,假设“暴力增加武器进口,而武器进口又增加暴力”是成立的。基于这些原因,在本书中,我不会用无环性来约束我的图,而是直接使用有向图。
这个简单的可视化工具,将帮助我们说明因果推断中的一个核心原则:为什么相关性不蕴含因果性(correlation does not imply causation) 。确实,相关性只是观察到两样东西一起变化,并不一定意味着它们之间存在因果关系。在本书中,我会将“association(关联)”和“correlation(相关)”交替使用,用来指代那些因果关系尚未被建立的变量之间的统计关系。注意,这种关系可能是正相关、负相关,或者更复杂的(非线性)关系,如下图所示:
图 1.2:正相关、负相关和非线性相关的图形化表示
虽然很多人都知道“相关不等于因果”,但真正理解“为什么”的人很少。这里有两种主要情形。第一种,如图 1.3 的案例 1 所示,鲨鱼袭击与冰淇淋销量之间的正相关,仅仅是由于一个共同原因:天气。天气晴朗时,两者都会发生,但二者之间并没有直接因果联系。这就是我们所说的虚假相关(spurious correlation) 。第二种情形见案例 2:教育对工作表现存在直接影响,但认知能力同时影响教育和工作表现。因此,在这种情况下,教育与工作表现之间的正相关,被认知能力的作用所混淆了。
图 1.3:用有向因果图表示虚假相关与混杂因素(confounders)的简单例子
有时候,你甚至会因为纯粹巧合而在不同元素之间发现相关性。一个著名例子来自一个专门收集这类“离谱相关性”的网站:每年因跌入泳池而溺亡的人数,与尼古拉斯·凯奇当年出演电影数量之间存在相关性(这个例子以及大量其他例子可见:tylervigen 网站上的 spurious correlations)。
这种“相关”和“因果”的区别至关重要;它是大量误导性信息和许多代价高昂错误的核心。本书其余部分都将围绕解决这个问题展开:如何把二者区分开来。
需要注意的是,因果链条可以是直接的,也可以是间接的。想想环保活动人士封路的影响。他们的目标是提升环保意识、减少化石燃料使用,并最终减少污染。然而,这些效应是间接的。封路的直接效应,是由于制造了交通拥堵,从而增加化石燃料污染。这两类效应可在下图中表示。注意,这里只是一个表示方式;封路对污染的因果效应需要经过充分研究,才能证明其存在,并评估其方向(正/负)与大小。
图 1.4:表示环保活动人士封路对污染影响的有向图
从技术上说,在原因与结果之间起到间接连接作用的元素(节点)叫作中介变量(mediator) 。因此,在这个例子中,环保意识就是一个中介变量。这是活动人士有意设计的路径,因为他们封路本来就是为了提升公众环保意识。中介变量解释了原因是如何影响结果的。因此,中介变量关注的是解释因果效应的路径或通道。
大多数时候,我们关心的是总效应(total effect) ,也就是直接效应和间接效应之和。在环保人士封路这个例子里,人们希望通过提升环保意识而带来的、对污染的间接负向效应,能够超过交通拥堵直接导致的污染增加。
再看一个商业世界中的例子。如今,AI 无处不在,承诺提升生产率。虽然如果你用得好,它确实可能提升生产率;但它也可能让你变得更懒,并过度依赖这些工具。有一项研究在测试不同生成式 AI 工具对 HR 招聘人员影响时,发现了令人惊讶的结果。在这些随机实验中,一部分招聘人员无法使用 AI,另一部分则获得不同质量水平的 AI 辅助。哈佛商学院博士后 Fabrizio Dell’Acqua 的论文 Falling Asleep at the Wheel 显示:获得更高质量 AI 辅助的人类,表现反而不如获得较低质量 AI 辅助的人(见 Dell’Acqua, Falling Asleep at the Wheel: Human/AI Collaboration in a Field Experiment on HR Recruiters)。作者还追踪了招聘人员作出决策时的努力程度:花费时间,以及点击次数(点击次数反映每位招聘人员点开候选人申请中多少个部分进行查看)。AI 往往会给出不错的建议,这可能会正向影响输出质量。然而,使用 AI——尤其是 AI 质量的高低——也会影响人的投入努力,而人的投入努力又会进一步影响最终输出。正如论文标题所暗示的,这些发现表明:更好的 AI 帮助,反而可能对“AI + 人类”的联合输出产生负面影响,因为人类可能会“在方向盘前睡着”。
图 1.5:该有向图表示论文《Falling Asleep at the Wheel》中研究的“使用 AI 对输出的影响”
直接原因与间接原因的区分,会引出关于因果关系的一个深刻问题:真正的根本原因是什么?边界画在哪里? 我们是不是应该把每一张因果图都从“大爆炸”作为根因开始,再接上生命演化、工业革命、化石燃料使用,最后到环保活动人士把自己粘在道路上?从理论上说,可以。但显然这会适得其反,因为这类图的目的之一就是以一种简单、可处理的方式可视化因果路径。此外,我们的目标是理解某一时点上某件事的效应,而某些过去事件其实已经发生了。因此,我们会尽量把图限制在必要的核心元素上。
那么,我们从哪里开始?我们从自己感兴趣的根因和最终结果开始:这里就是“环保活动人士封路”以及“对污染的影响”。我们是在某一个时间点观察这个情境,并希望评估在此刻封路的效应。因此,我们可以把先前的原因(例如工业革命)从图中剔除;也可以把那些并非直接关心、或重要性较低的后续结果(例如人们为了预判可能封路而提前下班)剔除——除非这些元素会直接影响原因与结果。
确实,在图中纳入那些同时影响我们两个关注元素(根因与结果)的其他因素是非常重要的。比如,可再生能源价格很可能同时影响污染水平,以及环保活动人士采取行动的可能性。为了便于举例,我们假设:可再生能源越便宜,环保活动人士越可能采取行动,因为他们知道化石燃料存在可负担的替代方案。我们可以用有向图这样表示这些关系:
图 1.6:该有向图表示对前一张图稍作丰富后的版本
这种额外因素会影响我们原因与结果之间的关系。一个同时影响原因和结果的元素,被称为混杂因素(confounder) 。正如我们将在后续章节看到的,考虑这类因素,是区分“简单相关”与“因果效应”的核心。那我们怎么知道自己的有向图画完了没有?其实我们永远不算真正“画完”。这些图会随着新证据和新增知识不断演化。不过,如果你遵循前面描述的规则,你就已经有了第一版草图。尽管它们并不完美,但把我们关于某个因果现象的假设与理解可视化到纸面上,价值极高。这是得出因果结论所必需的;因此,不去做这一步,其实只是把分析中的潜在漏洞或弱点隐藏起来而已。另外,现在应该也很清楚为什么我前面强调领域知识至关重要:领域知识能让你想到所有可能相关、且必须纳入考虑的因素,才能画出一张有效的图。有意思的是,我们从图中省略什么,和我们纳入什么同样重要。这些排除也都是经过有意识选择与思考的结果。
这只是对因果图的一个简短介绍。第 4 章会深入展开这一主题,介绍其他类型的关系(例如调节变量 moderator 和碰撞变量 collider),并解释如何用它们来挑战因果主张。不过,在我们真正全面吸收并受益于这类分析之前,还需要先掌握后续章节中的一些拼图。一旦我们开始画这些图,就会意识到——可以说——几乎一切都是多因素共同作用的。为了结束本章,让我们深入这个概念。
一切都是多因素的(Everything is multifactorial)
任何事情往往都有多个原因,而识别出其中一个,并不意味着其他原因就不存在。这个概念听起来也许很平常,但当我们思考因果关系时,它其实是最深刻的概念之一。人们常常争论一场战争或某个重大事件的“原因”,却没意识到双方可能都说得对,因为多个原因可以同时存在。最近,一本关于手机对年轻人抑郁影响的畅销书作者 Jonathan Haidt(《焦虑的一代》作者)解释说:大约从 2010 年开始的心理健康下滑,并不是由 2008 年金融危机导致的,而是由于手机和社交媒体的广泛使用。事实上,两者都可能是贡献因素,而指出其中一个,并不会否定另一个。因果推断恰恰是帮助我们识别不同原因相对重要性的关键工具,从而为这类问题提供更清晰的认识。
在准备 TEDx 演讲时,主持人问我,如果要向一个孩子介绍因果推断,我会怎么说。我回答说,我会告诉他们:一切都是多因素的。这个简单事实能提供一种视角,也能加深我们对自身行为和世界的理解。甚至在我和年幼女儿的一次对话中——她因为学校里一支坏掉的笔而非常沮丧——我也发现这个概念很有用。有一次,女儿老师告诉我,她因为朋友弄坏了她的笔而大哭,几乎绝望。这只是无理取闹吗?我是不是该直接告诉她:别为这么点小事哭了?我不这么认为。那支笔是她非常喜欢的,刚作为生日礼物收到。而且,这也不是她朋友第一次弄坏她的东西。再加上,那天她的小妹妹生病了,大家都没睡好。理解她的悲伤可能是多个原因累积的结果,能帮助我们更深入地理解问题,更好地回应(提供视角),并通过恰当反应来潜在地解决问题。
现在,再想一个可能更大的问题:为什么韩国人口在下降?2020 年,韩国的生育率约为 0.8,是世界最低。这种情况很可能由众多因素共同造成,从文化因素到经济因素、社会因素。识别并研究这些联系,是制定政策与做出良好决策所必需的。
除了这些简单例子之外,仅仅承认“每个原因都可能存在”通常还不够。实际上,你往往还希望精确地确定每个原因的效应,以及如果其中某个原因不存在、或其影响增大,会发生什么。比如你有一场广告投放活动时,你并不满足于只是说“季节性、竞争对手行为和广告活动都会影响销售”。你会希望通过剥离其他效应,精确计算广告活动的投资回报率(ROI)。承认多种因素同时在起作用,是第一步。而因果推断的工具(我们将在本书中探索)能帮助我们拆解这些多重影响,估计不同原因的相对重要性,或者在其他因素存在的情况下,隔离出某一个特定因素的效应。
案例研究
现在我们将更深入地探索这些案例研究,并开始把初步概念应用到每个场景中。拿出一张纸,或者打开一个文档,在阅读答案之前先试着自己回答。
案例研究 1:冷水澡与免疫系统
你或你的亲友可能接触过“冷水澡/冷暴露”这股风潮。如果你或你认识的人过去尝试过冷水澡,请在这一部分案例研究中用这些例子来反思;如果你不认识这样的人,就用你的想象。注意,冷暴露的主要逻辑依据是:它据称可能增强免疫系统。
阅读下面这段对话,并尝试识别偏差可能在哪些地方、以何种方式影响了人们的认知:
Mila: 嘿,Trent,最近怎么样?
Trent: 棒极了,谢谢。打喷嚏
Mila: 保重啊,感冒了?这波寒潮一来,办公室里好多人都中招了。
Trent: 哦,没事,就是鼻子有点痒。我已经洗冷水澡一个月了——从来没感觉这么有活力过。其实我一次病都没生。
Mila: 真的?冷水澡?这是怎么起作用的?
Trent: 又打喷嚏 我只是会在洗澡结束时用一分钟冷水冲一下。科学研究已经表明这能增强免疫系统。
Mila: 你确定你不是刚开始不舒服吗?你看起来有点不太对劲。
Trent: 不可能,我感觉好得很。全靠这些冷水澡。而且现在很多人都在这么做,他们也都这么说。我们现在对感冒都“免疫”了。
Mila: 挺有意思的。我读到过一些说法,感觉证据好像并不一致。
在这个简短的日常咖啡休息对话例子中,有多个偏差在起作用。这里我提两个可能影响“冷暴露对健康因果效应”认知的偏差:
- 确认偏误(Confirmation bias) :Trent 可能正在经历确认偏误——他把自己的活力感和没有生病归因于冷水澡,而忽略了其他可能的影响因素,比如饮食变化、季节变化,甚至安慰剂效应。这种偏差还可能影响他对证据的选择性记忆和使用,甚至让他拒绝接受某些事实(例如,他可能其实已经感冒了)。比如,Trent 可能会忽略那些发现“冷暴露对健康影响证据并不一致”的研究。
- 可得性偏差(Availability bias) :那些对冷水澡有正面体验的人,在讨论中(无论线上还是线下)往往声音更大、出现频率更高。实践者且深信其有效的人更愿意表达,这会放大“它有正向效果”的印象。
最后,我认为再次回到不确定性与统计学这一点很重要。即便冷暴露确实能增强免疫系统,它也并不能 100% 保护你免于任何疾病。因此,这个人很可能感冒了这一事实,也不足以单独推翻该论点。
现在,试着画出你的因果图,来研究冷水澡对健康的影响。这个练习里,我们只是探索潜在联系。每一条连接关系之后都应通过合理依据和证据(理想情况下是科学的因果证据)来确认。出于练习目的和简洁性考虑——毕竟本书不是一本关于冷暴露的医学研究——我这里只为每条连接勾勒一个可能的逻辑。
- 冷水澡可能通过增强免疫系统,直接影响你的健康。
- 此外,冷水澡可能影响你对自身健康的感知,而这种感知又会间接影响你的健康(例如安慰剂效应)。
- 你的健康状况可能影响你去洗冷水澡的概率。平均来说,更健康、更强壮的人可能更愿意经历冷水澡这种可能带来不适的过程。
- 但反过来,如果你正遭受某些健康问题困扰,你也可能愿意尝试冷水澡来解决这个问题(例如,有些人希望用冷水澡来缓解慢性疼痛)。
- 另外,一个重视健康的人往往会同时具备多种健康行为,这既会增加他洗冷水澡的概率,也会提高他的健康水平。
- 此外,季节性也可能起作用。冬天寒冷时,人们可能更不愿意洗冷水澡,但同时也更容易生病(例如普通感冒或流感)。
- 最后,像“他人意见”或“关于冷水澡的公共认知”这类外部因素,也可能影响你洗冷水澡的概率。
这些关系在下图中进行了表示:
图 1.7:表示冷水澡与健康之间因果关系的有向图
案例研究 2:节能宣传营销活动(energy sobriety)
2022 年 9 月,瑞士实施了一项倡导“节能节制(energy sobriety)”的宣传活动。这项全国性活动(主要由报刊广告、街头标识、公共交通广告、电视或线上广告组成)提供了各种节能建议(例如调低暖气、多穿一件毛衣、烧水时盖上锅盖等)。这项活动是对乌克兰战争引发的能源短缺风险作出的回应。需要注意的是,瑞士冬季气温较低,而供暖系统在这一时期的能源消耗中占很大比重。该活动从 9 月开始启动。
现在,试着画出你的因果图,来研究这项节能宣传活动对全国能源消费的影响。
- 乌克兰战争是这场节能宣传活动的触发因素。
- 这项活动旨在降低能源消费。
- 节能宣传活动开始于秋季,此时瑞士气温开始下降。
- 气温会影响能源消费,因为天气越冷,供暖需求越高。
- 最后,在当时欧洲能源短缺担忧(由战争引发)的背景下,能源价格预计会上涨。更高的价格会降低能源消费。
图 1.8:表示节能宣传活动与能源消费因果关系的有向图
案例研究 3:空气污染与呼吸系统疾病
污染不仅影响气候,也会直接影响我们的健康。近期研究估计,空气污染每年约导致 800 万人死亡(见 BMJ 相关研究)。作为对比,2020 年 COVID-19 的死亡人数估计在 180 万到 300 万之间(取决于计算方法;世界卫生组织的全球超额死亡估计见 WHO)。
试着为这个最后的案例研究画出因果图,来探索空气污染与呼吸系统疾病之间的关系。
- 已知空气污染会影响健康,尤其是通过呼吸系统疾病这一途径。
- 收入会带来差异,体现在家庭居住位置(污染更多或更少)、凭借经济资源获得医疗服务的能力,以及教育水平——而教育水平又可能影响健康风险认知和健康行为(例如吸烟概率)。
图 1.9:表示空气污染与呼吸系统疾病之间因果关系的有向图
总结
在本章中,我们通过探索什么是因果关系及其背后的科学——因果推断——开启了因果思维之旅。你已经了解到:虽然我们的世界充满了有趣的模式,但要做出稳健的决策,我们必须更深入地追问某个结果“为什么”会发生。我们也建立了这样一个认识:大多数事件都是多因素驱动的,由许多相互关联的原因共同作用,而我们自身的感知往往又会被认知偏差所遮蔽。为了穿透这种复杂性,你接触到了第一个实用工具:因果图,一种用于可视化关系的简单方法。这些基础知识至关重要,因为它们为后续所有内容提供了基本语言与框架。
既然我们已经建立了“什么是因果关系”以及“它为什么重要”,很多人可能会问:我们能不能用 AI 来做这件事? 如今 AI 似乎无处不在,很多人试图用它解决任何问题。下一章将揭示:AI 并不是回答因果问题的正确工具箱;而且如果你盲目用 AI 来做这件事,它甚至可能导致很糟糕的结果——这也是我在工作中经常见到的情况。
接下来,我们将探讨预测(prediction)与因果(causation)之间的关键区别,厘清何时该使用哪一种方法,以及为什么混淆二者会成为当今数据驱动世界里最常见、也最昂贵的错误之一。