为什么样本方差的分母是 n-1
按照方差的定义,直观上我们可能会这样子计算方差:
但是,在所有的书中,都将方差的计算公式定义为:
为什么是除以n-1
而不是n
呢?这就是这里要讨论的问题。
1、除n-1会带来什么问题
或许答案你已经知道了:为了保证方差估计的无偏性,我们通常要除以
n-1
,而不是n
.如果是除以n
,会使得估计的方差比实际方差要小。这是为什么呢?我们下面就来讨论讨论
1.1 现实生活中面临的问题
加入我们要调查全国人民的收入水平,并且已经知道了全国人民的平均收入水平问(别问我为什么知道的,上帝告诉我的)。这时我们对总体进行抽样,记每个样本问
,根据的定义,我们可以得到全国人民收入水平的方差为:
但问题是,现实生活中,是无法确定的(你不可能调查到所有人的收入水平)。这时候,我们就会用样本的均值
去代替
。但是!
如果直接使用作为方差的估计,那么计算出来的结果会低于实际的方差!
这是因为:
换言之,除非正好,否则我们一定有
而不等式右边的那位才是的对方差的“正确”估计!
这个不等式说明了,为什么直接使用会导致对方差的低估。
我们通过一个gif来看一下,和
的实际偏差越大,对估计的影响就越大!
1.2 如何解决这个问题
那么,在不知道随机变量真实数学期望的前提下,如何“正确”的估计方差呢?答案是把上式中的分母,通过这种方法把原来的偏小的估计“放大”一点点,我们就能获得对方差的正确估计了:
至于为什么分母是n-1
而不是n-2
或者别的什么数呢?这就是我们接下来要证明的事情。
2、调整分母 得到无偏估计
设为我们估计的方差,则
其中:
所以我们接着算下去:
其中(证明见:这里):
所以:
也就是说,低估了 ,进行一下调整:
因此使用下面这个式子进行估计,得到的就是无偏估计: