辛普森悖论

216 阅读2分钟

是什么

在某个条件下的两组数据,分组研究时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论

出现原因

分组和整体看时,受到分组群体权重系数 (样本量) 的影响。

具体解释就是:分组后其中的主要群组的影响权重更大,

样本相对较小的群组单个看,虽然可能在数据指标上表现更高,

但放在一起看,对于总体指标表现影响较小,即话语权较小,从而形成了辛普森悖论。

出现场景

尤其在拆解比例型指标中常见

异常定位

eg:对于某页面在9月份,男性女性用户点击率同比8月均增长,为何用户总体点击率下降?

相关性分析

eg:想知道APP中某个频道的用户浏览次数与APP使用时长的关系,直觉上呈正相关,结果做回归模型发现相关关系为负,为什么

AB实验

eg:上新了产品策略,在灰度环境中效果显著,到了全量效果对全站影响为负

如何避免

分析前问自己

  • 分析的问题是否有必要拆分维度?当数据与业务sense不一致时,再决定下钻拆分
  • 如果细分维度,如何选取维度?结合业务理解,判断哪些维度拆解具有实际业务指导意义

分析中

辛普深悖论和各组样本量大小有关系,可以结合实际问题,定义个别分组的权重,用以消除基数差异影响。这里,可以套用全概率的知识点来做具体分析:

Snipaste_2024-09-26_17-43-00.png

同时,辛普森悖论常常跟混淆变量有关,要注意频率统计无法直接揭示因果关系。要从数据背后,结合 业务实际目标及含义,找到根因、发现异常。

工作中注意,普适性数据(算数平均)是否有参考意义?