是什么
在某个条件下的两组数据,分组研究时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论
出现原因
分组和整体看时,受到分组群体权重系数 (样本量) 的影响。
具体解释就是:分组后其中的主要群组的影响权重更大,
样本相对较小的群组单个看,虽然可能在数据指标上表现更高,
但放在一起看,对于总体指标表现影响较小,即话语权较小,从而形成了辛普森悖论。
出现场景
尤其在拆解比例型指标中常见
异常定位
eg:对于某页面在9月份,男性女性用户点击率同比8月均增长,为何用户总体点击率下降?
相关性分析
eg:想知道APP中某个频道的用户浏览次数与APP使用时长的关系,直觉上呈正相关,结果做回归模型发现相关关系为负,为什么
AB实验
eg:上新了产品策略,在灰度环境中效果显著,到了全量效果对全站影响为负
如何避免
分析前问自己
- 分析的问题是否有必要拆分维度?当数据与业务sense不一致时,再决定下钻拆分
- 如果细分维度,如何选取维度?结合业务理解,判断哪些维度拆解具有实际业务指导意义
分析中
辛普深悖论和各组样本量大小有关系,可以结合实际问题,定义个别分组的权重,用以消除基数差异影响。这里,可以套用全概率的知识点来做具体分析:
同时,辛普森悖论常常跟混淆变量有关,要注意频率统计无法直接揭示因果关系。要从数据背后,结合 业务实际目标及含义,找到根因、发现异常。
工作中注意,普适性数据(算数平均)是否有参考意义?