今天是一个伤感的日子,合作了四年的基友last day。一起吃完中饭后,小饭桌正式解散。期间基友又一次提到他将来想在abtest上做点工作。互联网的同学对ABtest不会陌生,但很少人真的会去追究里面的理论基础,可能是因为在常识层面就很容易理解ABtest,而且我们经常是看相关性,不怎么考虑因果。
但这个领域确实有理论基础,比如因果推断,就是一门很有意思的理论,听说国外有不少公司设立了相关的岗位,但是国内还没有听说谁在做。由于比较感兴趣,基友写了几篇文章,开头的引子如下:
这是《聊聊因果推断》系列的第一部分,全系列预计由六个部分组成,将在接下来一段时间内逐步更新。该系列在内容上对统计学、计量经济学、实验设计和机器学习相关的理论和实践均有涉及,主要围绕着基于实验和数据的因果推断这一核心主题,同时侧重于互联网公司在进行线上A/B测试时遇到的问题和挑战。由于内容覆盖面较广,笔者初窥门径、能力有限,如有错误和疏漏之处还请大家赐教。
我们常常在做abtest的时候,会遇到流量波动的问题,特别在电商领域,GMV这个指标是比较难测准的,大部分时候,我们选择的是多测几天,那么这个有没有理论基础呢?另外,我们的实验常常是有偏的,这个还会带来线下指标和线上不一致等问题。理论上可以做一些变化,成为一个无偏估计,接着就可以应用大学里学过的假设检验去计算实验的置信度。
为了让大家更好的了解这领域,我们来看一个例子:
假设政府想了解医院的治疗是否能改善病人的健康状况,并以此作为依据来指导公共卫生开支相关政策的制定。以下案例出自[1],数据来源是2005年的美国国民健康访问调查(NHIS)。根据对问题"在过去的12个月中,您是否曾经住院"的回答,受访者被分成了两组,第二列为各组受访者的数量,第三列表示该组受访者的平均健康状况,来自受访者对问题“您认为的您的健康状况属于好极了(1)、非常好(2)、好(3)、一般(4)、差(5)中的哪一档”的回答,值越高表示健康状况越差。
通过以上数据我们发现有过住院经历的受访者的健康状况明显更差,但如果由此进一步推出“住院导致了病人的健康状况恶化”这一因果关系的话则无疑是荒谬的。对这一数据现象的一个自然解释是健康状况差的人才会去住院,也就是两组受访者健康状况的差距在他们住院之前就已经存在了,因此这一差距并不是由住院这个因所导出的果。
上述例子是对”相关关系不等于因果关系”的一个典型例证。这句话在近年来被越来越多的人提及,但是我们是否准确理解了这句话的含义呢,不妨用以下的几个问题来检验一下:是否可以用数学语言严格地描述“相关关系不等于因果关系”这一结论?能否在定性的基础上进一步给出定量的关系?相关性是一个统计学的基础概念,常见的定义有Pearson系数、Spearman系数等等,但是因果关系到底是个什么东西,能否给出形式化的定义?
提到因果关系的判断就不得不提互联网公司用于支持产品快速迭代的方法——A/B测试,或者又被称为随机控制变量实验、分桶实验、灰度测试等等。A/B测试并不是一个很新的概念,受现代统计学的奠基人Ronald Fisher在实验设计方面早期研究的影响开始获得推广传播,在20世纪上半叶已经在农业、医学等领域有了大量应用,至今仍是因果推断的黄金标准[3]。但是A/B测试为什么能衡量因果关系?A/B测试的正确性和可靠性依赖了哪些理论上的前提条件?如果这些条件被被违背了,A/B测试的正确性和可靠性在多大程度上会打折扣,又是否有办法再弥补回来?如果受到实验样本的大小和数据自然波动的影响,实验结论的可靠性如何确保,又是否有技术手段能进一步提升可靠性呢?
如果大家对以上的问题感兴趣,可以移到到他的个人blog(主要的是知乎的公式编辑器太垃圾了,实在不想编辑,麻烦大家多点一次链接),目前已经完成的章节有:
Rubin Causal Model视角下的A/B测试
在本系列上一节的最后,我们使用假设检验对平均实验效应的估计的可靠性进行了定量评估。值得注意的是,假设检验方法在实践中存在大量的滥用和误用现象。自假设检验方法普及以来,不断有统计学、心理学、流行病学、社会学等学科的学者发表论文和书籍指出其应用中存在的各类误区和陷阱,并呼吁相关的教学和科研环节采取改进措施[1][2][3][4]。不幸的是,直至今天,这些被反复指出的问题仍然普遍存在,各类改进或替代的方案也极少得到了足够大规模的应用。
本节将聚焦在A/B测试中应用统计推断存在的一些常见陷阱,只有成功的识别并规避它们,才能确保A/B测试结果的有效性。
本系列的第一节重点介绍了随机控制变量实验能够较好地评估因果关系的三个重要前提条件,其中,实验对象的随机分组保证了潜在结果结果同实验分组之间的独立性这一条件,从而使得选择偏置为零。另一方面,我们强调了在大量的现实场景中,实验对象的随机分组或挑战了实验道德伦理,或需要付出大量的时间/金钱成本,因此难以实现。
从本节开始,我们将话题暂时由实验性研究转向观察性研究,重点探讨在无法直接控制实验分组的前提下应该如何评估因果关系。这部分内容大量取材于计量经济学,如有错误和疏漏还请赐教。