读书笔记——《AB实验:科学归因与增长的利器》

400 阅读6分钟

AB实验基本要素

实验单元

多粒度

粒度从细到粗:元素、页面、对话、用户,细粒度 vs 粗粒度:

比较维度细粒度粗粒度
流量
用户体验连续性
分布不均可能性

其中,分布不均可能性:以人均时长指标为例,因为非常活跃的用户是少数,他们贡献的观看时长却占较大的比例,所以在将用户分组的AB实验中,多数活跃用户被分在A组还是B组,将对结果产生较大影响。因为这些活跃用户整体占比较少,在随机分配过程中分配不够均匀的概率也很高,从而影响实验结果的概率也较高。

结论:

  • 在不影响体验连续性的前提下,从实验效果评估的角度,应该尽可能选择较小粒度的随机单元进行分流。
  • 选择用户级别的实验参与单元颗粒度仍是最主要的一种方式。它具有体验稳定性,同时可以对用户进行长期观察。

用户

用户标识:账号(多人共用问题)、设备id(跨平台不连续问题)。

针对一部分用户进行实验时,需要考虑对剩余流量的影响(分布改变)。

SUTVA

定义:SUTVA(Stable Unit Treatment Value Assumption,个体处理稳定性假设)是指在AB实验分析中,假设实验中每个实验参与单元的行为是相互独立的。

原因:

  • 直接:发生互动,例如社交场景,实验组与对照组互相影响
  • 间接:潜在变量/共享资源,例如共享预算池,导致高估(解决方案:共享资源隔离,按流量分配资源)

最小单元数量

考虑因素

  • 显著性水平(一类错误)
  • 功效(1 - 二类错误)
  • 方差(对照组)
  • 最小检出水平(置信区间)

随机分流

其他参考文档:zhuanlan.zhihu.com/p/52424409#…

基本原理:基于哈希函数,对用户随机分桶。

  • 哈希(散列)函数:zhuanlan.zhihu.com/p/49435564
  • 每个桶中的用户数量应该大致相同。如果按关键维度(如地域、平台或性别)进行细分,则各个桶的切片数据也将大致相同。
  • 关键指标(目标、保护、质量)应该具有大致相同的值(在正常可变性范围内)。

分流方式

  • 单层分流:不重复利用用户,在同一个时间内,用户最多只会参与一个实验。存在问题,流量不够用。
  • 正交分层:无限层(冲突碰撞)-> 有限层(改变同一类参数的实验为同一层)->贯穿域(跨层联合实验)

实验控制参数

要求

  • 可分配
  • 容易改变(例如软件 vs 硬件)

实验指标

要求

  • 实验指标能反映实验者的意图(客观 vs 主观),但存在问题(行为数据不能直接反映用户行为的原因)
  • 可测、易测

在AB实验开始之前...

SRM校验

其他参考文档:blog.csdn.net/alimama_Tec…

定义:样本比例不匹配问题(Sample Ratio Mismatch,SRM),主要是指实验组和对照组之间的实验参与单元数量(比如用户数、页面数、会话数等)的比率不匹配。例如,在一个实验中,实验组和对照组分别被分配10%的用户,理想的情况是在每个组中看到大致相等的用户数,而实际结果是实验组有821588个用户,对照组有815482个用户。两者的比率是0.993,而根据实验设计比率应该是1.0。

原因

  • 部署阶段:动态定向目标
  • 执行阶段:实验组策略下发失败(解决方案:对照组下发空策略)
  • 数据分析阶段:机器人过滤

计算

核心指标:采样比例的p值

  • 比率类指标计算方差
  • 基于均值与方差计算z值
  • z值反查p值

AA实验

定义

随机选取两组用户,对这两组用户使用一样的策略,除了参与实验的对象之外没有其他不同的实验称为AA实验,也称为AA测试、空转测试。

目的

  • 建立实验平台信任
  • 提前发现AB实验的陷阱和问题:实验参与对象分布不均、不同质、平台异常、数据异常等

应用

  • 控制第一类错误
    • 实验偷窥(尚未稳定、单元数量不足,导致假阳性)
    • 方差计算有误,例如用户随机化,计算点击次数方差,但同一个用户的多次点击并不是独立的
  • 确保用户同质,即确保实验组和对照组用户之间具有可比性,不存在实验以外的其他差异
    • 重复使用实验人群时,使用连续的AA实验来确定残留效应,先前的实验会影响在相同用户上运行后续的实验。
    • 不均衡的分组比例:10%和90%的分组,其中90%的分组,在占用共享资源的时候,可能会有比较明显优势。
    • 其他硬件软件问题
  • 数据指标对齐,评估指标的可信度和可变性:实验系统的数据指标与日志系统、大盘数据对齐,是建立实验系统使用者对实验系统数据信任的基础。
  • 估计统计方差:使用AA实验来估计当前状态和用户构成情况下,不同指标的方差。基于方差和给定的最小可检测效果,可以计算出最小的实验参与量,以及相应的AB实验需要运行的时间。
    • 方差 -> 天然波动水平(置信区间) -> 最小可检测效果要大于天然的波动水平才有意义

流程

系统级别AA实验

  • When:一般在AB实验系统刚开始运行,或是AB实验系统采用了新的随机分流机制(新随机函数、新增加实验层、实验域等)、采用新的数据计算流等任何可能影响实验结果的重大变化的时候,建议随机运行尽可能多的AA实验。
  • How:可以模拟1000个AA实验,并根据实验结果绘制P值分布图。如果AA实验的P值分布不均匀,则AB实验系统的可信度存疑。

实验级别AA实验

  • 存在问题:增加实验周期
  • 解决方案:日志回溯

统计学知识

关键知识:

  • population vs sample、标准差、标准误差
  • 中心极限定理
  • p值、显著性水平(一类错误)、功效(1 - 二类错误)、置信区间
  • 假设检验、z检验、t检验

辅助材料:space.bilibili.com/293534204/c…