问题
如果c罗和梅西整个赛季的进球数据如下所示:
| 球员 | 点球 | 点球进球数 | 任意球 | 任意球进球数 | 总进球 | 总进球数 |
|---|---|---|---|---|---|---|
| 梅西 | 110 | 57 | 20 | 8 | 130 | 65 |
| c罗 | 10 | 6 | 120 | 49 | 130 | 55 |
由上述数据我们粗略得到结论:
梅西: 65/130 > c罗 55/130
梅西的进球率比c罗高
但当我们把问题分解成任意球进球率和点球进球率,会得到
| 球员 | 点球率 | 任意球率 |
|---|---|---|
| 梅西 | 57/110 | 8/20 |
| c罗 | 6/10 | 49/120 |
很明显两项数据都是c罗占优势。
这个时候就跟上面的结论矛盾了,这个统计学的谬论称为辛普森谬论。
因此为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。
即通过以下算式进行计算:
梅西进球率:
c罗进球率: