辛普森谬论

405 阅读1分钟

问题

如果c罗和梅西整个赛季的进球数据如下所示:

球员 点球 点球进球数 任意球 任意球进球数 总进球 总进球数
梅西 110 57 20 8 130 65
c罗 10 6 120 49 130 55

由上述数据我们粗略得到结论:
梅西: 65/130 > c罗 55/130 梅西的进球率比c罗高

但当我们把问题分解成任意球进球率和点球进球率,会得到

球员 点球率 任意球率
梅西 57/110 8/20
c罗 6/10 49/120

很明显两项数据都是c罗占优势。

这个时候就跟上面的结论矛盾了,这个统计学的谬论称为辛普森谬论。

因此为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。

即通过以下算式进行计算:
梅西进球率:

\frac{110}{130}\ *\ 55\% + \frac{20}{130}\ * \ 40\%

c罗进球率:

\frac{10}{130}\ *\ 60\% + \frac{120}{130}\ * \ 41\%