AB实验基本要素
实验单元
多粒度
粒度从细到粗:元素、页面、对话、用户,细粒度 vs 粗粒度:
| 比较维度 | 细粒度 | 粗粒度 |
|---|---|---|
| 流量 | 大 | 小 |
| 用户体验连续性 | 差 | 好 |
| 分布不均可能性 | 小 | 大 |
其中,分布不均可能性:以人均时长指标为例,因为非常活跃的用户是少数,他们贡献的观看时长却占较大的比例,所以在将用户分组的AB实验中,多数活跃用户被分在A组还是B组,将对结果产生较大影响。因为这些活跃用户整体占比较少,在随机分配过程中分配不够均匀的概率也很高,从而影响实验结果的概率也较高。
结论:
- 在不影响体验连续性的前提下,从实验效果评估的角度,应该尽可能选择较小粒度的随机单元进行分流。
- 选择用户级别的实验参与单元颗粒度仍是最主要的一种方式。它具有体验稳定性,同时可以对用户进行长期观察。
用户
用户标识:账号(多人共用问题)、设备id(跨平台不连续问题)。
针对一部分用户进行实验时,需要考虑对剩余流量的影响(分布改变)。
SUTVA
定义:SUTVA(Stable Unit Treatment Value Assumption,个体处理稳定性假设)是指在AB实验分析中,假设实验中每个实验参与单元的行为是相互独立的。
原因:
- 直接:发生互动,例如社交场景,实验组与对照组互相影响
- 间接:潜在变量/共享资源,例如共享预算池,导致高估(解决方案:共享资源隔离,按流量分配资源)
最小单元数量
考虑因素
- 显著性水平(一类错误)
- 功效(1 - 二类错误)
- 方差(对照组)
- 最小检出水平(置信区间)
随机分流
其他参考文档:zhuanlan.zhihu.com/p/52424409#…
基本原理:基于哈希函数,对用户随机分桶。
- 哈希(散列)函数:zhuanlan.zhihu.com/p/49435564
- 每个桶中的用户数量应该大致相同。如果按关键维度(如地域、平台或性别)进行细分,则各个桶的切片数据也将大致相同。
- 关键指标(目标、保护、质量)应该具有大致相同的值(在正常可变性范围内)。
分流方式
- 单层分流:不重复利用用户,在同一个时间内,用户最多只会参与一个实验。存在问题,流量不够用。
- 正交分层:无限层(冲突碰撞)-> 有限层(改变同一类参数的实验为同一层)->贯穿域(跨层联合实验)
实验控制参数
要求
- 可分配
- 容易改变(例如软件 vs 硬件)
实验指标
要求
- 实验指标能反映实验者的意图(客观 vs 主观),但存在问题(行为数据不能直接反映用户行为的原因)
- 可测、易测
在AB实验开始之前...
SRM校验
其他参考文档:blog.csdn.net/alimama_Tec…
定义:样本比例不匹配问题(Sample Ratio Mismatch,SRM),主要是指实验组和对照组之间的实验参与单元数量(比如用户数、页面数、会话数等)的比率不匹配。例如,在一个实验中,实验组和对照组分别被分配10%的用户,理想的情况是在每个组中看到大致相等的用户数,而实际结果是实验组有821588个用户,对照组有815482个用户。两者的比率是0.993,而根据实验设计比率应该是1.0。
原因
- 部署阶段:动态定向目标
- 执行阶段:实验组策略下发失败(解决方案:对照组下发空策略)
- 数据分析阶段:机器人过滤
计算
核心指标:采样比例的p值
- 比率类指标计算方差
- 基于均值与方差计算z值
- z值反查p值
AA实验
定义
随机选取两组用户,对这两组用户使用一样的策略,除了参与实验的对象之外没有其他不同的实验称为AA实验,也称为AA测试、空转测试。
目的
- 建立实验平台信任
- 提前发现AB实验的陷阱和问题:实验参与对象分布不均、不同质、平台异常、数据异常等
应用
- 控制第一类错误
- 实验偷窥(尚未稳定、单元数量不足,导致假阳性)
- 方差计算有误,例如用户随机化,计算点击次数方差,但同一个用户的多次点击并不是独立的
- 确保用户同质,即确保实验组和对照组用户之间具有可比性,不存在实验以外的其他差异
- 重复使用实验人群时,使用连续的AA实验来确定残留效应,先前的实验会影响在相同用户上运行后续的实验。
- 不均衡的分组比例:10%和90%的分组,其中90%的分组,在占用共享资源的时候,可能会有比较明显优势。
- 其他硬件软件问题
- 数据指标对齐,评估指标的可信度和可变性:实验系统的数据指标与日志系统、大盘数据对齐,是建立实验系统使用者对实验系统数据信任的基础。
- 估计统计方差:使用AA实验来估计当前状态和用户构成情况下,不同指标的方差。基于方差和给定的最小可检测效果,可以计算出最小的实验参与量,以及相应的AB实验需要运行的时间。
- 方差 -> 天然波动水平(置信区间) -> 最小可检测效果要大于天然的波动水平才有意义
流程
系统级别AA实验
- When:一般在AB实验系统刚开始运行,或是AB实验系统采用了新的随机分流机制(新随机函数、新增加实验层、实验域等)、采用新的数据计算流等任何可能影响实验结果的重大变化的时候,建议随机运行尽可能多的AA实验。
- How:可以模拟1000个AA实验,并根据实验结果绘制P值分布图。如果AA实验的P值分布不均匀,则AB实验系统的可信度存疑。
实验级别AA实验
- 存在问题:增加实验周期
- 解决方案:日志回溯
统计学知识
关键知识:
- population vs sample、标准差、标准误差
- 中心极限定理
- p值、显著性水平(一类错误)、功效(1 - 二类错误)、置信区间
- 假设检验、z检验、t检验