当前时间片实验日益增多,且时间片实验之间如果不加限制会存在互相干扰。因此在货拉拉实验场景大量使用固定顺序轮播的时间片嵌套的方法,将这一干扰降低至可控。
但实际情况中,由于订单在周与周之间会有周期性波动,因此对嵌套实验而言,一旦嵌套层数大于2层,回收周期将大于28天。
因此考虑到,如果使用固定顺序轮播和随机顺序轮播交叉的方式,是否可以缩短回收周期。本文使用模拟的方式给出相应的说明。
1. 理论基础
关于全因子实验设计(factorial design)和时间片嵌套实验设计的思考
1. 时间片嵌套实验本质上是全因子实验设计的一种实现方案
因子在这里指的是不同模块的策略; (例如:当前「播单扩半径」与「调整pk时长」就可以认为可以组成一个全因子实验)
将不同的因子,以一定的方式组合起来,当仅观测某一个时,要保证其他因子的影响程度可以相互抵消;
最小实验周期等价于所有可能性轮换一遍,且保证每组的时间相等所需要的时间(不考虑周的自然波动)。
2. 全因子实验框架下,时间片长度和实验顺序对嵌套实验的影响
时间片嵌套实验,存在2大实验设计变量,时间片长度的选取(5分钟,30分钟,1小时等等),实验顺序的设计(随机顺序,固定顺序)。
为了演示的方便,这里仅考虑2个因子,每个因子仅有2个取值的实验,即AB与XY,需要保证AX,AY,BX,BY均在实验中出现,同时,作用时长相等。
为了说明时间片长度的影响,这里先假定实验顺序为固定序,假定起点对齐,嵌套结构有如下情况:
1. 当两个因子的时间片长度相等时,必须引入其中一个的顺序反转,才能遍历到所有组合;
2. 当两个因子的时间片长度不等时(一个长度为m,一个长度为n):
不保证每个组合耗时一致,需要 2 * max(m,n)即可获得所有组合数据;
若要保证组合耗时一致,情况较为复杂:
- 当 m = 2n 时,需要 2m 长度即可(可以泛化为,m是n的偶数倍);
- 当 m = 3n 时,需要 4m 长度(可以泛化为,m是n的奇数倍);
- 当 m 不能被 n 整除时,需要长度 = 2 * 最小公倍数(m,n),不需要变化顺序
3. 当仅考虑实验顺序的影响,同样考虑2个因子alpha,beta,每个因子多种取值的情况,共会发生3类组合
(注:以上讨论均不考虑天波动/周波动带来的同质性问题处理)
2. 固定+随机时间片场景探索
我们关心使用固定顺序轮播和随机顺序轮播交叉的方式,是否可以缩短实验回收周期。
上面的理论基础可知,时间片长度是影响嵌套实验的另一个变量,所以接下来的模拟会考虑时间片长度是否相同,在不同的实验周期内,探索固定顺序叠加随机顺序后实验数据的同质性。
时间片长度相同: 实际动播3.0实验 + 模拟加价实验
- 动播3实验: 按照实际 ab实验 数据统计,两个分组各为X分组时间片,使用固定顺序轮播
- 模拟加价实验: 这里为模拟实验,按照两个组各X分钟时间片,使用随机顺序轮播
结论如下:
- 总体上,四种情况下的订单数占比约有1p.p.~4p.p.不等的差异,差异仍可接受;
- 从动播3的实验来看,对照组有XXX%的订单可加价,实验组有XXX%的订单可加价,经检验,二者有显著差异。
动播3分组 | 模拟加价实验分组 | 订单数 | 订单数占比 | 可加价订单数占分组流量的比 | 可加价订单数占全部流量的比 |
---|---|---|---|---|---|
对照组 | 对照组 | XXX | 26.58% | 0.00% | 0.00% |
对照组 | 实验组 | XXX | 22.93% | XXX% | XXX% |
实验组 | 对照组 | XXX | 23.64% | 0.00% | 0.00% |
实验组 | 实验组 | XXX | 26.85% | XXX% | XXX% |
-
各组分小时的订单数分布如下:
各组间在小时维度的波动差异较大,16天周期下不同质;
“对照组+对照组”和“实验组+实验组”的趋势较为贴合,且二者趋势明显异于“仅有一组是实验组”的组合的趋势;
-
四种组合下的订单数逐日累积变化趋势如下:
“对照组+对照组”和“实验组+实验组”的趋势较为贴合,另外两组的趋势更为贴合;
在16天里,并未出现四条线逐渐收敛的趋势
时间片长度相同:模拟动播3.0实验 + 模拟加价实验(60天)
由于实际情况下很少有长期存在的某个实验,因此这里模拟一个60天的播单实验,与模拟的加价实验在同一批城市上叠加,用来探查在延长了观测周期以后,这种叠加效应能否有所稀释;
- 模拟动播3实验: 两个分组各为X分组时间片,使用固定顺序轮播
- 模拟加价实验: 两个组各X分钟时间片,使用随机顺序轮播
结论如下:
-
总体上,四种情况下的订单数占比差异缩窄至1.5p.p.以内,在无真实策略的情况下,各组配对率差异极小;动播实验组和动播对照组的可加价订单占比基本无差异;
-
即使延长观测周期至60天,各组订单在一天每小时的分布上仍然有较大不同质
同样呈现出“对照组+对照组”和“实验组+实验组”的趋势较为贴合,且二者趋势明显异于“仅有一组是实验组”的组合的趋势;
-
即使延长观测周期至60天,累积订单数也并未出现“逐渐收敛”的趋势;
模拟播单实验分组 | 模拟加价实验分组 | 订单数占比 | 配对率(无真实策略干扰) | 可加价订单占比 |
---|---|---|---|---|
对照组 | 对照组 | 24.46% | XXX% | 0.00% |
实验组 | 25.56% | XXX% | XXX% | |
实验组 | 对照组 | 25.62% | XXX% | 0.00% |
实验组 | 24.36% | XXX% | XXX% |
时间片长度不相同:模拟动播3.0实验 + 模拟加价实验(60天)
由于实际情况下很少有长期存在的某个实验,因此这里模拟一个60天的播单实验,与模拟的加价实验在同一批城市上叠加,用来探查时间片长度不相同下的叠加效应;
- 模拟动播3实验: 两个分组各为0.5X分组时间片,使用固定顺序轮播
- 模拟加价实验: 两个组各X分钟时间片,使用随机顺序轮播
结论如下:
-
总体上,四种情况下的订单数占比差异缩窄至0.2p.p.以内,在无真实策略的情况下,各组配对率差异和可加价订单占比基本无差异
-
各组订单在一天每小时的分布上基本同质
14天时会有轻微不同质;到28天在每小时分布上基本无差异了
模拟播单实验分组 | 模拟加价实验分组 | 订单数占比 | 配对率(无真实策略干扰) | 可加价订单占比 |
---|---|---|---|---|
对照组 | 对照组 | 25.03% | XXX% | 0.00% |
实验组 | 24.96% | XXX% | XXX% | |
实验组 | 对照组 | 25.06% | XXX% | 0.00% |
实验组 | 24.95% | XXX% | XXX% |
3. 固定+随机时间片叠加效应分析结论
我们通过实际的实验数据和模拟数据,探索了在不同实验周期、时间片长度下,固定顺序轮播和随机顺序轮播交叉的实验方式对实验同质性的影响:
-
当固定和随机的时间片都为X分钟时:
截止第16天:各组订单数、可加价订单占比都有较明显差异;
截止第60天:各组订单数、可加价订单占比无差异,但每小时订单数分布明显不同质
-
当固定顺序轮播的时间片为0.5X分钟,随机轮播的时间片为X分钟时:
截止第二周(14天):各组订单数、可加价订单占比已基本无差异;每小时订单数分布有轻微不同质
截止第四周(28天):各个指标同质性均较好
综上:
我们关心固定顺序轮播和随机顺序轮播交叉的方式,是否可以缩短回收周期,但实际的实验数据和模拟数据显示,这种方式并不能明显缩短观察周期,且同质性不好
当时间片长度相同时,使用固定轮播+随机轮播的方式,并不能缩短回收周期,反而在相同的回收周期下,这种方式下的同质性不如嵌套的固定顺序轮播;
当时间片长度不同时,使用固定轮播+随机轮播的方式,同质性较好;但同样的时间片长度,如果都用固定顺序轮播,也几乎能在同样的回收周期达到同等的同质性。
总结
对于货拉拉实验平台的时间片嵌套实验,我们认为应该谨慎使用随机顺序轮播,因为随机时间片的引入,带来了额外的方差,拉长了实验周期。
虽然固定顺序轮播需要人工处理多层实验的正交问题,但实验上线后流量同质性较好,实验周期较短,因此是多层时间片嵌套实验的较优的轮播方式。