数据分布不一致下如何得到置信的评价指标

1,823 阅读4分钟

背景

在工作和学习中,我们常常需要进行对数据进行某种维度的指标评价,比如下面的一个例子,我们想统计两个平台下单件商品的盈利(比如想告诉商家哪个平台的利润比较高),例子不是很严谨,但是为了方便说明做了简化。

商品单件盈利订单量平台
A1010某宝
B530某宝
C3020某宝
D1001某宝
B101某东
C3520某东
D10040某东
E4080某东

如果分平台来看,我们很容易会遇到一些问题,比如A商品在某宝有卖,但是在某东没有卖,E商品在某东有卖,但是在某宝没有卖。也就是说在拿到一些数据时,我们无法将完美地控制变量(数据分布不一致)进行比较,所以我们需要采取一定的方式,尽量来避免数据分布不一致给评价指标带来的影响。

评价指标的几种计算方式

简单的评价方法

在拿到数据后,我们最直觉的做法就是直接通过 总盈利/总商品 得到单件的盈利,即可以告诉商家,某东还是某宝卖东西单件利润更高。根据这个思路,分别统计结果是

某宝

10×10+5×30+30×20+100×110+30+20+1=95061=15.57\frac{10 \times 10 + 5 \times 30 + 30 \times 20 + 100 \times 1}{10 + 30 + 20 + 1} = \frac{950}{61} = 15.57

某东

10×1+35×20+100×20+40×801+20+20+80=5910121=48.84\frac{10 \times 1 + 35 \times 20 + 100 \times 20 + 40 \times 80}{1 + 20 + 20 + 80} = \frac{5910}{121} = 48.84

所以结论是某东比某宝的单件利润高213.7%!

为啥会高这么多,问题就在于某东有很多D商品和E商品,而相应的某宝对应的是A商品和B商品(某东和某宝的由于平台差异,数据分布就是差异很大),直接相比这是不客观的,因为对于同一个商家来说,他希望看到同一类商品在某东和某宝的利润比较

那为啥不一件件商品分别对比?

可以,但是如果商品很多的时候,就需要人为花较多的时间一件件分析,我们讨论如何用一个指标来更为客观的刻划。

合理的控制变量方法--取交集

在上述比较的基础上,稍微合理的方式就是我们只比较两者都有的商品,即比较B、C、D

某宝

5×30+30×20+100×130+20+1=85051=16.67\frac{5 \times 30 + 30 \times 20 + 100 \times 1}{30 + 20 + 1} = \frac{850}{51} = 16.67

某东

10×1+35×20+100×201+20+20=271041=66.10\frac{10 \times 1 + 35 \times 20 + 100 \times 20}{1 + 20 + 20} = \frac{2710}{41} = 66.10

所以结论是某东比某宝的单件利润高296.5%!

看着数据更加离谱了。。。

因为只是简单地对数据取交集,还是没有解决数据分布不一致的问题,商品D对结果(某东卖的多,某宝卖的少)产生了很大的影响,我们更希望的是比较商品C这种在两个平台都卖的的很多的东西。

合理的控制变量方法--取交集&对样本加权

因此在对样本取交集的情况下,我们需要对样本设置一个权重,哪些样本更为置信,哪些样本不置信。设置的原则是

  • 当样本x在某东卖的多且某宝卖的多时候,我们认为样本很置信
  • 样本x只在一个平台卖的多,我们并不认为其很置信

因此权重的取法可以有(仅供参考)

WX=sx某东sx某宝W_{X} = \sqrt{s_x^{某东}s_x^{某宝}}

其中sx某东s_x^{某东}表示商品x在某东卖出的件数,sx某宝s_x^{某宝}表示商品x在某宝卖出的件数。

因此我们可以得到B,C,D对于的权重为

商品权重w权重归一化
B300.0638
C4000.8511
D400.0851

使用权重进行加权,得到结果如下

某宝

5×30×30+30×20×400+100×1×4030×30+20×400+1×40=2485008940=27.80\frac{5 \times 30 \times 30 + 30 \times 20 \times 400+ 100 \times 1 \times 40}{30 \times 30 + 20 \times 400 + 1 \times 40} = \frac{248500}{8940} = 27.80

某东

10×1×30+35×20×400+100×20×401×30+20×400+20×40=3583008830=40.58\frac{10 \times 1 \times 30 + 35 \times 20 \times 400 + 100 \times 20 \times 40}{1 \times 30 + 20 \times 400 + 20 \times 40} = \frac{358300}{8830} = 40.58

所以结论是某东比某宝的单件利润高45.0%!

看着合理多了。

总结

以上只是通过一个简单的加权方式来解决样本分布不一致情况下如何得到更为客观的评价结果,我们更需要关注的是

  • 评价的时候样本存在分布不一致的问题吗?如果存在应该怎么解决?
  • 评价指标是否置信

关于样本分布不一致,应该如何评价这类的问题,有类似的meta分析