我们现在已经从第 1 章和第 2 章理解了:为什么因果关系对商业决策、日常生活、政策制定以及许多其他场景都至关重要。这真是个好消息:我们只要用因果方式去测量,就能做出更好的决策!
问题在这里开始变复杂。事实上,正如我们将在本章中学习到的,完美测量一个因果效应的唯一方法,是一种不可能实现的事情。所以,系好安全带——我们要进入“绝望之谷”了。但别担心,这并不意味着我们无法提供因果证据来回答重要问题。我们会在本章结尾,以及接下来专注于解决方案的部分里,探讨我们实际能做什么。长话短说,我们要把自己放到警探的位置上,因为这件事本质上就是:找到真凶——真正的原因。谁不喜欢在《妙探寻凶》(Cluedo)里扮演侦探,或者追一集 CSI 呢?这也是因果推断如此迷人的众多原因之一。
本章我们将学习以下主题:
- 理解因果推断的根本问题(the fundamental problem of causal inference)
- 探索反事实(counterfactuals)
- 证明因果关系(proving causality)
理解因果推断的根本问题
当我们试图测量因果效应时,会遇到一个问题——一个如此核心的问题,以至于它被称为:因果推断的根本问题(the fundamental problem of causal inference)。为了说明这个概念,我想和你分享一把“钥匙”——一把你将永远可以拿来当作参照点使用的钥匙。这把钥匙会帮你打开因果推断这只装满谜团的盒子。
这把钥匙从一个小故事开始。想象一下,你头疼了。起初只是隐隐作痛,但很快越来越难以忍受。你揉太阳穴,把视线从电脑屏幕上移开,或者停下手头正在做的事。你不确定自己要不要吃药。偏偏这又让你很烦,因为你刚买了一本关于因果推断的书,特别想继续读下去、继续学习这个迷人的世界。于是你先等了一会儿,喝了点茶,可情况还是越来越糟。最后,你实在受不了了,于是决定吃一片药。
过了一会儿,你松了口气——头痛消失了。
但如果你像我一样,你会皱起眉头,眯起眼睛,然后开始想:
“我好转是因为这片药吗?是因为我喝了茶、补充了很多水吗?还是只是因为时间过去了?”
在这种情况下,实际上我们不可能知道真正的原因是什么,也不知道这片药到底有没有起作用。所有这些潜在原因都混在了一起。它们被混杂(confounded)在一起了。大多数情形都是如此。世界很复杂,而且正如我们在第 1 章中看到的,几乎所有事情都是多因素的(multifactorial) (有多个原因)。
因此,理想情况下,我们真正想做的是:隔离出原因及其处理效应(treatment effect) 。如果要百分之百确定这片药是不是原因,唯一的办法是需要两个平行世界:从宇宙大爆炸到你头痛发生的那一刻,这两个世界都完全一样。在其中一个世界里,你吃了药;在另一个世界里,你没吃药。只有当你在“吃药的世界”里确实更快好转时,你才能声称药物是原因。在这种理想设置里,唯一的差异就是“是否吃药”,因此结果上的任何差异都可以归因于处理(treatment)的差异。如下图所示:
图 3.1:因果推断根本问题示意图
可惜的是,我们无法接触到平行世界来做这件事。因此,许多事情会同时发生并彼此混杂(例如喝茶、吃药)。我们把这种缺失称为:因果推断的根本问题。这个术语准确指的是:不可能在完全相同的时间点,同时观察同一个实体(例如一个国家、一只实验鼠、一个人或一个家庭)在“接受处理”和“不接受处理”两种状态下的表现(例如吃药 vs 不吃药)。
这对很多人来说可能会令人沮丧,甚至气馁。但在我看来,这恰恰又是因果推断如此令人兴奋的原因之一。答案并不简单。回答因果问题不仅需要技术知识,也需要领域知识(domain knowledge)。本书中的技术知识会指导你的思考,并提供质疑因果主张的工具。另一方面,领域知识——你对世界的理解——在质疑因果关系时同样重要。因此,当你想回答一个因果问题时,你总是需要深入主题本身,努力理解事物如何连接、如何运作,画出因果图,并质疑自己的假设。
接受因果推断的根本问题,并不是终点;它恰恰是起点。
事情从这里开始变得有意思。尽管理想情形无法达到,但追求因果答案的过程,就是尽可能逼近这个理想情形。这也是为什么我喜欢把“平行世界”概念称作一把“钥匙”。这是一个你可以反复回到的参照概念。然后,当你拿这个理想情形与现实情形对比时,它就能帮助你发现差异,并成为识别潜在问题的有用方法。
为了说明如何使用这把“钥匙”,让我举一些医学研究中的例子。对动物进行实验的医学研究,是一种能让我们尽可能接近平行世界情形的设置(尽管它也会引发伦理问题)。医学研究大量使用大鼠或小鼠来研究药物效应。但不是随便什么啮齿动物——通常会用到我们所谓的近交品系(inbred strains) 。这些动物是通过兄妹交配繁殖超过 20 代得到的。除了遗传上高度相似,它们的生活也几乎完全一样:出生并生活在实验室、待在笼子里、吃同样的食物、经历相同类型的互动,等等。
因此,如果我们给其中一组小鼠用药,而给另一组小鼠安慰剂(placebo),我们就可以合理预期:如果在疾病结果上出现差异,这种差异是由药物造成的,因为其他条件几乎都相同。这被称为平行组设计(parallel group design) 。
但它真的总是完美吗?我们真的就构建出了令人满意的“平行世界”替代方案吗?让我们用这把钥匙来质疑这个例子。记住,我们并没有真正接触到平行世界。与真正平行世界相比,这个小鼠实验里还有哪些其他差异?
首先,我们已经看到这些动物几乎是一样的。但想象一下,接受安慰剂的小鼠所在的位置更容易受到干扰(比如笼子就在门边)。这样这些动物会更紧张,而压力最终会影响它们的行为和健康。你还可以设想出许多其他可能系统性影响两组小鼠的差异。试着自己想一想:比如食物上的差异(例如他们忘了给安慰剂组喂食),或者饲养条件上的差异(例如笼子正好在空调出风口下方,其中一组一直在受冻)。这种方法只有在执行得非常完美时才令人满意,而这并不简单,这也将成为第 6 章“随机实验”的主题。
在这一研究领域里,我们甚至还可以比“平行组设计”更接近平行世界。有时可以在某一天给动物施加一种处理,然后在另一天给同一批动物施加另一种处理或安慰剂。这种方法称为交叉设计(crossover design) 。这种方法在工业界(例如 Uber)也会用到,通常被称为 switchback experiments(切换回退实验) 。不过,即便如此,我们仍然可以想象在给予安慰剂和给予处理的两个时间点之间,存在某些系统性差异。
例如:安慰剂是由一个实验员注射的,而处理药物是由另一个实验员注射的。再假设,一方面,团队对新处理(这里是用注射器注射)的操作非常谨慎,因为他们很重视这个新治疗方案;另一方面,他们觉得安慰剂注射没那么“精细”,于是让新来的实习生去做。那如果这个实习生无人监督、压力很大、经验不足,导致对动物操作不当,并最终影响了动物整体状态呢?对受试对象的这种不当对待会负面影响接受安慰剂的小鼠,于是如果不把这个因素考虑进去,人们就可能高估处理的效果。
最后,在某些少见情况下,我们可以通过所谓的组内比较(within-group comparisons) 进一步接近平行世界。在这种情形下,你会在同一时间把处理和安慰剂施加在同一只动物的不同部位(例如双眼、双爪、不同皮肤区域)。这种几乎完美的情况极少能实现,因为有很多限制。主要限制在于:我们必须有可比较的肢体或部位,而且对其中一个部位的处理不能影响其他部位。
下图展示了刚才提到的不同实验设计:
图 3.2:医学研究中不同实验设计示意图(不同颜色的小鼠表示不同小鼠组)
现在你已经初步看到如何使用这把“钥匙”了:把现实情形与理想平行世界情形进行比较,可以帮助你识别差异并发现潜在问题。不过,目前这把钥匙看起来更像是一根用来炸开保险柜门的炸药棒。确实,我们把保险柜打开了,但里面的东西也被炸得满地都是——也就是说,我们能识别潜在问题,但还不太清楚它们是否真的是问题,也不清楚问题的严重程度或可能的解决方案。在接下来的章节里,我们会逐步打磨这项技术。
这个根本问题带来的核心后果,归结为一个单一但关键的选择:既然我们永远无法观察到真正的“平行世界”,我们就必须在现实世界中选一个替代物。这个被观察到的现实情形,将作为真实反事实(即“没有处理的平行世界”)的替代,而真实反事实永远不可观测。我会经常把它称为代理反事实(proxy counterfactual)或对照组(control group) 。这个选择至关重要——它会影响主张的强度,也会影响我们最终得出的结论。为了把这件事做好,我们会在本章继续深入这一主题。
探索反事实(Counterfactuals)
让我们用一些更复杂的现实场景,再回到这个核心概念,尤其是看看:通常会有多个可选方案,而且各有优缺点。
因果思维的本质,在于比较“实际发生了什么”和“如果某个特定元素不存在,本来会发生什么”——例如,一个干预、一片药、一场营销活动。因此,要推断因果关系,你需要把“有干预”的情形与另一个“无干预”的参照情形进行比较。正如我们已经看到的,理想情况下,这个参照情形应当是平行世界:接受处理的那些单位,在处理期内不接受处理时会怎样。这就是我们所说的反事实(counterfactual) 。例如:如果我没吃那片药,我的头痛会怎样?
正如你现在已经知道的,我们永远无法观察到真正的反事实(那个平行世界)。因此,要进行因果推断,我们必须选择一个可观察的情形来充当反事实。目标是找到一个尽可能接近平行世界的情形。反事实的选择是关键。
在小鼠实验的例子里,什么可以作为反事实非常清楚:就是那组几乎完全相同、接受安慰剂的小鼠。在这个场景中,我们能够非常接近平行世界,因此“用什么来充当反事实(代理反事实)”的选择相对直接。
然而,在其他情形里,这个决策可能更复杂,而且是多维的。当前,关于使用生成式 AI(下文简称 GenAI)来提供心理健康支持的影响,存在很多争论。哈佛商业评论 2025 年 4 月的一篇文章报道,2025 年 GenAI 的第一大使用场景是“治疗与陪伴”(therapy and companionship)。想象一下,你有一个用于帮助应对心理健康问题的聊天机器人。为了评估这个聊天机器人对心理健康的影响,你可以用什么作为反事实?
是一个“什么都不做”的人群吗?
是接受传统治疗的人群吗?
是从家人那里或在网上寻求支持的人群吗?
这些不同选项都可以成立,但它们取决于你在问什么问题,而且会影响你的结论。如果你想比较“GenAI 治疗 vs 传统治疗”,那你就应当比较分别接受这两种治疗的人群。可是,如果你想研究 GenAI 是否能在其他选择不可用时填补空白——例如,当你在等待预约一个很忙的治疗师、在预约前这段空档期——那么在这种情况下,反事实就可以是“什么都不做”。
从某种意义上说,这正是 2025 年一项广受关注的研究所采用的做法:在 210 名参与者中,一半可以使用 TheraBot(一个 GenAI 心理治疗聊天机器人),另一半则被安排在候补名单中,等待四周后使用该工具。值得注意的是,这项研究发现,与对照组相比,使用 TheraBot 的人群在重度抑郁障碍、广泛性焦虑障碍,以及进食/喂养障碍临床高风险症状方面都出现了症状下降。
反事实思维被用于各种场景。比如在法律中,为了量刑,必须估计某个行为的后果,因此需要比较“实际发生了什么”和“如果没有这个行为会发生什么”。在医疗中,健康专业人员依赖反事实思维来评估接受某项治疗的成本收益。在商业世界里,理解一项营销活动或战略决策是否有效,也需要反事实推理。本书中的概念能帮助我们正确开展这些分析,降低昂贵错误的风险。
如果找不到一个好的、可观察的情形来充当反事实,我们就无法测量因果效应,结果也就可能具有误导性。这里有一个我听说过的例子:某家公司在一座城市提供免费的电动滑板车服务,并声称它对环境有正向影响。这个主张的依据是:把开车的排放与使用电动滑板车的排放进行比较,然后据此推断“因为电动滑板车排放更低,所以排放减少了”。也就是说,这家公司把“汽车出行”当作反事实,假设免费电动滑板车服务在市中心是汽车出行的替代品。
这个假设站得住脚吗?大概率并不成立。根据一篇研究论文,电动滑板车服务更像是公共交通或步行的替代品,而不是汽车的替代品。反事实不同,结论会完全不同。如果在没有电动滑板车服务的情况下,人们原本更可能步行或乘坐公共交通(而这两者排放比电动滑板车更低),那么这种服务实际上可能对环境是负面影响。
再看一个例子:评估客户忠诚度计划(customer loyalty program)的影响,正好凸显了反事实挑战。我们必须找到一个可靠的代理反事实——一个具有可比性的、没有加入该计划的客户群体——才能最终知道“如果他们没有加入,本来会怎样”。
想象一家商店推出会员卡,一年后发现持卡客户的购买额显著高于未持卡客户。人们很容易立刻下结论说:这个计划有效。但如果要正确回答这个问题,我们必须弄清楚:这些会员卡客户如果没有办卡,他们原本会花多少钱?
问题在于,这两组人(会员与非会员)并不是来自平行世界。他们是不同的客户,本来就可能有不同特征。原本就经常购物的客户,往往最有可能主动办理会员卡。这就是一个典型的选择偏差(selection bias) 案例:即便在项目开始前,“处理组”(会员卡持有者)与“未处理组”(非会员)在根本上就已经不同了。
另一种比较方式,是把客户加入会员计划前几个月的购买习惯,与加入后的几个月进行比较。但同样地,借助“平行世界”概念和因果推断根本问题,你知道事情会随着时间变化。尤其是,会员计划也许刚好是在节假日季开始推出,而节假日季本来就是门店销量更高的时候。因此,这种“前后对比(before-and-after)”同样有缺陷。
正如这个例子所展示的,如果没有选择正确的对照组来充当反事实,企业就可能严重误判一次营销活动的成败。解决这种问题并不简单,它要求你先更深入地理解问题本身及其解决方法——而这正是我们将在后续章节中要讨论的内容。如果你想进一步深入,这个问题恰好有一篇科学论文专门研究(注意该论文技术性很强):Huber (2024), Causal Machine Learning in Marketing。
到目前为止,我们已经知道:因果主张依赖于一种比较——我们观察到的情形 vs 如果没有某个行动本会发生的情形。不幸的是,由于因果推断的根本问题(平行世界的缺失),我们没有理想反事实。
因此,我们必须找到一个往往并不完美的、可观察的情形来充当反事实。通过上面的不同例子,我们已经看到:识别反事实,并将它与理想平行世界情形进行对比,能帮助我们发现一些局限或问题。这本身就是一个极其强大的工具,而且会成为评估因果主张的第一步。
到目前为止,我是以相对抽象的方式解释因果关系及如何质疑因果主张的。我使用的方法更偏向批判性思维和思想实验,而不是统计学,尽管我接受的正规教育其实更偏后者。这样做有两个原因:
第一,我意识到我所做的大部分工作并不需要一条公式。这样的方法让我能够把这些概念的本质分享给更广泛的受众,并推动这些知识的普及。
第二,在不作任何假设的前提下,你无法仅凭数据直接检验“是否存在因果关系”。这是因果推断根本问题的直接后果。既然我们无法接触到平行世界,统计检验本身就无法解决这个问题。
要识别因果效应,一个最重要的假设通常是不可检验的,这个假设叫作无混杂假设(unconfoundedness assumption) 。无混杂假设的含义是:如果处理组(例如领到优惠券的人)和未处理组(例如没领到优惠券的人)都没有接受处理,那么这两组会处于相同状态(例如相同的消费水平) 。如果这个假设成立,那么我们就有了识别因果效应的正确路径。
然而,由于我们无法在处理期内观察“处理组在未接受处理时”的状态,我们就无法直接验证这个假设是否成立。我们只能评估这个假设的合理性——例如,检查两组人在系统性特征上是否存在差异。
如果我们无法通过一个检验来直接证明因果关系,那我们能做什么呢?让我们现在来回答这个问题。
证明因果关系(Proving causality)
现在,我们已经走到了“绝望之谷”的谷底。我们已经看到因果关系有多重要,但我们的热情却像炎热夏日里游泳池边一个疲惫三岁小孩手里的冰淇淋甜筒一样,啪地掉在地上。好在,接下来我们要开始沿着知识曲线往上爬了。我们会通过攀登许多台阶,走出这片低谷。下面这个例子会先揭示一个总体思路:在本书后续展开细节之前,我们如何找到因果效应的证据。
虽然我们无法用一个简单的检验来证明因果关系,也无法直接验证“无混杂假设(unconfoundedness assumption)”,但实际上我们可以做很多事情来检验这个假设是否可信。为了说明这一重要点,我们来看研究者是如何操作的,例子是一篇非常有意思的科学论文,它研究了空气污染对伦敦死亡率的影响(见 Hanlon (2024), London Fog: A Century of Pollution and Mortality, 1866–1965)。
早在 19 世纪,伦敦就已经是人口密集且污染严重的地区。作者 Walker Hanlon 回答了一个关键问题:暴露于污染的影响对死亡率有什么作用? 但这里首先出现一个问题:空气污染数据直到 20 世纪 50 年代才开始可用。为了解决这个挑战,Hanlon 想出了一个很有创意的办法,利用了自 19 世纪 50 年代以来就很准确的气象数据。他的想法是:用雾(fog)作为污染的代理变量(proxy) ,因为当伦敦出现浓雾时,污染会滞留在低空,市民暴露于污染的程度就会上升。
现在,让我们把自己放进“警探”的角色里。警探不断在调查因果问题,包括“谁该为一个人的死亡负责”。是芥末上校在温室里用烛台干的吗?你确定凶器不是扳手,或者凶手不是别人吗?在我们的案例里,我们有一个嫌疑人,更准确地说,是一个我们想检验的假设:雾通过滞留污染而增加死亡率。接着我们会问自己:真的是污染造成的吗?还是医疗服务的发展变化导致的?又或者其实是天气本身的直接后果?在这个情境里,所有这些因素都会影响死亡率。但我们想精确锁定其中一个“嫌疑人”的作用:空气污染。更具体地说,我们将聚焦这篇论文中的一部分结果:浓雾如何通过提高污染浓度而增加伦敦的死亡率。
真正拍到某人实施犯罪的视频很罕见,这让识别作案者变得困难。即便你有视频,画面也可能模糊,或者甚至是伪造的。因此,你也许永远无法百分之百确认罪犯身份。为了克服这个限制,你会不断累积证据,并尽力排除嫌疑人的所有可能不在场证明(alibi),直到证据足够充分。在研究中,当我们想找到因果证据时,我们采用的是同样的方法。我们会探索那些可以解释观察到效应的替代性理论,并尝试把这些“故事”一个个排除,直到只剩下我们的假设。
这篇论文的核心部分,是研究浓雾对死亡率的影响。仅仅去看“浓雾周及其后续一周的死亡率(所有死因合并)如何变化”是有问题的,因为还有许多其他事情也不同。回忆一下我们关于“如何选择对照组/代理反事实(proxy counterfactual)”的讨论。当有浓雾和没有浓雾时,“前后”很多因素都可能发生变化。特别是,我们可以从图 3.3 左图看到:平均而言,20 世纪出现浓雾的周数比 19 世纪后期更少;而图 3.3 右图显示:在春夏季(大约第 14 周到第 39 周),浓雾几乎不存在。如果雾只在秋冬季出现,那么额外死亡可能是寒冷导致的,而不是污染导致的。
图 3.3:左图表示按年份统计的浓雾周数;红色水平虚线表示 1900 年前后平均每年的浓雾周数。右图表示按日历周统计的浓雾周数
值得注意的是,Hanlon 证明了:虽然烟尘颗粒在理论上可能促进凝结,但伦敦浓雾出现的时间主要是由特定大气条件所主导。短期煤炭排放波动并不能预测雾何时形成,因此在他的分析中,“雾反过来影响污染”的反向效应可以视为边际的(很小)。这是一类常见问题,叫作反向因果(reverse causation) ,我们会在下一章讨论它。
带着因果推断这副“镜头”,我们会看到:污染、雾和呼吸系统疾病之间,连接成了一个错综复杂的因果关系网。为了拆开这个网,并识别污染是否真的是导致死亡率上升的“元凶”,我们需要扮演侦探的角色,挑战嫌疑人的“不在场证明”。
玩一场因果侦探游戏(Playing the causal detective game)
幸运的是,我们可以在统计模型中把这些因素考虑进去,从而把“浓雾效应”与“季节性效应”和“时间趋势效应”拆分开来。例如,为了考虑跨世纪的变化,我们不去比较死亡率的绝对水平,而是看每年内每周死亡率相对于该年平均周死亡率的偏差(deviation) 。所谓偏差,就是相对于平均值的距离。这个做法可以让我们比较“可比的东西”。
举例来说,1870 年的死亡率和 1935 年的死亡率可能因为医疗系统质量不同而存在差异。因此,与其直接比较 1870 和 1935 的绝对死亡率,不如比较“1935 年内某一周相对于 1935 年周均值的偏差”与“1870 年内某一周相对于 1870 年周均值的偏差”。这样做就考虑了各年份的一般背景,避免把“雾的影响”和“医疗体系演进的影响”混在一起。其本质上,我们是在这里改变了代理反事实:我们不再做跨年份比较,而是研究同一年内的波动(within-year variation) 。
此外,我们还可以对其他因素进行“控制(control)”,例如季节性或天气条件(如温度)。所谓“控制”,是指让它保持不变,从而只估计我们主要关心原因变化所带来的影响。换句话说,我们可以在统计模型中加入一个变量,捕捉季节性对死亡率的影响,也加入变量捕捉天气条件(例如温度)对死亡率的影响。这样就能把这些因素的效应隔离出来,防止它们在模型里和雾的效应混在一起。
如果要超越这种直觉性解释,就需要较高阶的统计学知识。我承认,这也是本书这种写法的一个限制。尽管如此,你会看到:即使不掌握这些技术细节、也不花多年学习统计学,你仍然可以理解本书中的核心概念。不过,如果你确实想打开这只“技术箱子”,深入统计层面,我推荐两本书:Scott Cunningham 的 Causal Inference: The Mixtape(更偏学术)和 Matheus Facure 的 Causal Inference in Python(更偏商业实践)。
图 3.4 展示了第一个结果:死亡率在浓雾周以及其后一周都会上升。纵轴表示死亡率(所有死因合并),横轴表示某一周与“浓雾周”的周距(distance in weeks from a week with heavy fog)。图中的点表示“一年内部的死亡人数偏差平均值”,因为我们是在看相对于均值的偏差(即超额死亡,excess mortality),从而比较可比对象(即同一年内的死亡,而不是拿 1925 年和 1875 年直接比,因为 1875 年总体死亡率可能由于卫生条件和雾等因素更高——我们前面已经讨论过)。
例如,在第 0 周(即浓雾周),平均死亡人数大约增加了 70 人。每个点上下的竖线是误差条(error bars)。简单说,如果这些误差条跨过 y 轴上的 0 值,就表示这个变化在统计上不显著——也就是说,这个差异可能只是随机波动造成的。因此我们可以看到,只有“浓雾周”和“浓雾之后一周”的变化是统计显著的。如果这是一个关于污染暴露导致健康问题的故事,那么这意味着:人们在浓雾周死亡风险更高,而且这种风险可能会持续到之后一周。
图 3.4:该图报告了围绕浓雾周的每周死亡人数;此时模型已先行捕捉了季节性、天气与时间效应
但请记住,我们应该质疑一切,像警探一样办案。这真的就是健康问题吗?会不会是在浓雾周因为能见度差,交通事故更多?或者犯罪更多,因为人更容易隐藏?
为了排除这些替代性叙事,作者按“记录在案的死因”比较死亡人数(例如事故/犯罪 vs 肺炎)。在图 3.5 中,方形点表示死于事故或犯罪的人数,圆形点表示死于肺炎的人数。注意,肺炎是一种肺部疾病,可能被污染诱发或加重,这也是我们要做这组比较的原因。
图 3.5:该图报告了围绕浓雾周,事故/犯罪死亡与肺炎死亡的额外死亡变化
图 3.5 显示:在浓雾周前后,由事故或犯罪导致的死亡率并没有统计显著变化。这就确认了主要驱动因素是呼吸系统疾病,而这很可能是由污染上升触发的。我们正在越来越接近抓到嫌疑人:污染。
不过,还有最后一个主要替代性故事值得排除:死亡率上升会不会是因为浓雾天人们待在家里、彼此传染了疾病?当天气不好(有浓雾)时,人们可能更倾向于待在家里。这样一来,人们之间传播病毒性呼吸道疾病的风险会增加,因此死亡人数上升可能只是这个原因,而不是污染造成的。看起来这个故事很难被证伪,对吧?
论文作者 Walker Hanlon 用了一个非常巧妙的方法来驳回这个替代性故事。他比较了两种不同的天气冲击:浓雾和大雨。确实,大雨很可能对人们行为产生类似影响:人们也可能待在家里。但关键点在于:雾会困住污染,而雨会清洁空气。因此,如果这真的是一个“污染故事”,那么我们应当观察到与雾相反的雨效应(即死亡减少)。下图清楚显示了这一点:在 19 世纪伦敦,雾提高了死亡率,而雨看起来反而具有“救命效应”。
图 3.6:该图表示围绕浓雾周(方形点)与围绕强降雨周(圆点)的总体死亡率变化对比
我们已经排除了若干“不在场证明”(例如“坏天气使人待在家里,从而增加疾病传播”),也排除了其他嫌疑人(例如天气本身、时间演变、事故或犯罪)。正如上一章在解释科学过程时所说的那样,想象这篇论文在多年间被专家反复挑战,他们不断提出各种潜在替代解释,而作者必须一一回应。最终,作者累积了足够多的证据,可以说:我们观察到的效应确实是由污染引起的。
这篇论文很好地展示了:在复杂场景中如何应对因果推断的根本问题,以及为什么你不能靠一个统计检验来“直接证明因果关系”。尽管没有这种直接证明,我们仍然清楚地看到:数据与统计在建立因果主张时,确实是有用的。
到目前为止,你已经拥有了那把打开因果推断世界的“钥匙”:平行世界故事(the parallel world story) 。这把钥匙可以帮助你识别:你当前使用的代理反事实,与理想平行世界之间有哪些差异。记住,理想设置是拥有平行世界,从而让两个世界之间只有一个差异(即原因),其他一切完全相同。这样一来,如果我们在只有一个差异的平行世界里观察到了结果差异,我们就能声称结果差异是由这个原因导致的,因为它被隔离出来了。
但现实世界很复杂,因此,作为因果侦探,我们必须排除或隔离所有其他潜在解释,看看我们怀疑的那个原因是否还能“存活下来”。这就是整体思路。
在接下来的章节中,我们会看到如何尽可能高效地完成这个过程。下一章将提供一套“因果法医专家”的工具箱。我们会装备自己一组问题,让我们能够以结构化方式挑战因果陈述。
关键概念(Key concepts)
- “钥匙”:平行世界故事(the parallel world story)
完美测量因果效应的唯一方式,是拥有两个平行世界,并且我们有能力只改变其中一个世界里的一个因素。- 因果推断的根本问题(The fundamental problem of causal inference)
我们无法获得用于实验的平行世界。因此,我们不能在同一时间点同时观察同一个实体(例如国家、个人、动物)在“有干预”和“无干预”两种状态下的表现(例如武器进口 / 不进口、规律运动 / 不运动、吃药 / 不吃药)。- 反事实(Counterfactual)
反事实是“没有干预的那个替代世界”。- 代理反事实(Proxy counterfactual)
代理反事实是我们用来充当反事实的、现实中可观察到的情形。它也常被称为对照组(control group) 。- 无混杂(Unconfoundedness)
为了测量因果效应,我们必须把“原因”与其他可能混杂的影响隔离开来。因此,我们假设:如果处理组(例如收到优惠券的人)和未处理组(例如未收到优惠券的人)都没有接受处理,那么它们会处于相同状态(例如相同消费水平)。
案例研究(Case studies)
针对这三个案例研究,请思考:是否可以使用一个有效的对照组(control group)或代理反事实(proxy counterfactual)来估计因果效应。请运用“平行世界故事(parallel world story)”,尝试识别“理想平行世界”与你所选反事实之间的潜在差异。
例如,如果你想评估一次夏季广告活动对销量的影响,却拿没有投放广告的冬季销量作为代理反事实,那么这里的主要差异就是季节。
下面我给出一些可能的答案。你也许会提出不同的反事实与不同的观察点——这是完全正常的。可选方案有很多。随着我们在本书中继续推进这些案例研究,我们会逐步缩小选择范围,目标是既尽量接近理想设置,也要保持现实可行。
案例研究 1:冷水澡与免疫系统
如果我们比较“洗冷水澡的人”和“不洗冷水澡的人”的健康状况,会怎样?
洗冷水澡的人平均而言可能更投入于健康生活方式,这可能出于两个不同原因。第一,一个人知道冷水澡潜在益处这一事实,本身就可能反映出其在该问题上的兴趣和知识水平。第二,如果一个人愿意为了健康去做一件不舒服的事情,这表明他在健康上投入较多,并且可能也会采取其他措施来保持体能与健康。
因此,这种系统性差异会造成选择偏差(selection bias) ,从而阻碍我们识别因果关系。
案例研究 2:节能宣传活动(Marketing campaign for energy sobriety)
2022 年,为应对瑞士可能出现的能源短缺威胁,政府发起了一项大型节能宣传活动。该活动主要由大规模广告宣传构成,内容包括节能技巧与建议。下图展示了同一年瑞士每月总能耗。图中的竖向虚线表示这场节能营销活动的开始时间。
把活动开始前一个月的能耗作为“消费(能耗)的代理反事实”是有问题的。能耗模式会受到**季节性(seasonality)**影响。月份之间温度会变化,而在瑞士,冬季能源消耗中一个重要组成部分是供暖。因此,冬季能耗上升只是天气条件变化的反映,无法用来衡量这场活动的影响。
图 3.7:该图表示 2022 年瑞士每月总能耗(GWh)
案例研究 3:空气污染与呼吸系统疾病
现在设想,为了评估空气污染对健康的影响,我们比较“污染严重地区”和“污染较轻地区”的呼吸系统疾病患病率。
这些地区之间可能还存在其他差异。生活在重污染地区的人,平均而言可能社会经济地位更低。因此,他们在教育水平、收入水平,甚至医疗服务可及性方面都可能不同。
另一种比较方式,是比较城市地区与农村地区,假设城市地区通常比农村地区空气污染更严重。然而,若用城乡对比来比较呼吸系统疾病(已知会被空气污染加重)的风险,也是不合适的,因为农村地区并不是一个好的反事实。生活在农村的人与生活在城市的人,在人口特征上可能系统性不同,在日常生活方式上也可能不同(例如工作类型、饮食、体力活动)。因此,我们无法把空气污染单独隔离为唯一因素,因为还有其他变量同样会影响这种关系。
总结(Summary)
本章带我们进入了“绝望之谷”,揭示了因果推断的根本问题。你已经了解到:由于我们永远无法在同一时刻观察一个人、一家公司或一只实验鼠同时处于“有干预”和“无干预”两种状态,我们就失去了测量因果效应的理想设置。
为了克服这一点,我们必须为那个理想但不可能实现的“平行世界”寻找一个现实世界中的替代物——我们称之为代理反事实(proxy counterfactual)或对照组(control group) 。通过从电动滑板车到客户忠诚度计划等多个例子,我们看到:代理反事实的选择是一个关键决策,它可能会显著影响结论的质量,甚至直接改变问题的答案框架。
这些内容之所以重要,是因为它会把你从一个被动的信息消费者,转变为一个主动的侦探。拿着“平行世界”这把钥匙,你现在已经可以开始质疑任何因果主张: “这里在比较什么?这个比较与理想比较之间有多大差异?” 虽然我们已经学到,无法用一个简单的统计检验直接证明因果关系(特别是“无混杂假设”),但“伦敦浓雾”这一详细案例展示了:我们可以通过系统性地排除替代解释来积累稳健证据,从而一步步逼近真正的原因。
现在,你已经理解了核心问题,以及应对它所需的“侦探式思维”,我们也准备好开始走出低谷了。第 1 章末尾提到的有向图(directed graphs)已经可以帮助我们发现差异。在下一章中,我们会为你配备更多工具。我们将精确锁定:在你的观察情形与代理反事实之间,哪些差异最具问题性,并向你介绍错误因果主张的来源:混杂因素(confounders)、反向因果(reverse causation)、测量误差(measurement errors)以及外部效度威胁(threats to external validity) 。