本文已参与「新人创作礼」活动,一起开启掘金创作之路。
1. 方差(variance)的定义
方差是用来度量随机变量和其数学期望(均值)之间的偏离程度的一个统计量。
统计学中(所有样本)的总体方差公式:
σ2=N∑(X−μ)2(1-1)
其中σ2是总体方差,X是随机变量,μ是总体均值(有时也用Xˉ表示),N是总体样本数。这里提到的样本,是基于样本数量N(几乎)无限的假设。对应的各个统计量,也是所有的样本所服从的分布的真实参数,是客观正真实的。
2. 样本方差
现实情况中,我们往往得不到所有的无限样本,而只能抽样出一定数量的有限样本。通过有限的样本来计算的方差,称为样本方差,公式如下:
S2=n−11i=1∑n(Xi−Xˉ)2(2-1)
注意上式的系数和总体方差公式里面的系数不一样,分母是n−1。为什么不用n作为分母呢?这是因为如果沿用总体方差的公式得到的样本方差,是对方差的一个有偏估计。用n−1作为分母的样本方差公式,才是对方差的无偏估计。
3. 总体方差公式的有偏性证明
n1i=1∑n(Xi−Xˉ)2=n1i=1∑n[(Xi−μ)+(μ−Xˉ)]2=n1i=1∑n(Xi−μ)2+n2i=1∑n(Xi−μ)(μ−Xˉ)+n1i=1∑n(μ−Xˉ)2=n1i=1∑n(Xi−μ)2+2(Xˉ−μ)(μ−Xˉ)+(μ−Xˉ)2=n1i=1∑n(Xi−μ)2−(μ−Xˉ)2(3-1)
换言之,除非正好有Xˉ=μ,否则一定会有
n1i=1∑n(Xi−Xˉ)2<n1i=1∑n(Xi−μ)2(3-2)
上式的右边是对方差的正确估计,左边是有偏估计。
产生这一偏差的本质是因为均值用的是样本均值Xˉ。这将导致采样出来的样本之间不是完全相互独立的,自由度从n降为了n−1。(注意,一个好的采样有两点要求:随机采样,并且样本之间是相互独立的)这是因为,给定Xˉ和任意n−1个样本,就能确定剩下的一个样本,也即只有n−1个样本是完全相互独立的,自由度为n−1。
4. 样本方差公式分母为n-1的推导
在正式推导之前,先给几个公式作为铺垫:
- 方差计算公式:
D(X)=E(X2)−[E(X)]2(4-1)
- 均值的均值:
E(Xˉ)=E(n1i=1∑nXi)=n1E(i=1∑nXi)=E(Xi)=Xˉ(4-4)
- 均值的方差
D(Xˉ)=D(n1i=1∑nXi)=n21D(i=1∑nXi)=n1D(Xi)(4-5)
对于没有修正的方差计算公式,计算其期望:
E(S2)=E(n1i=1∑n(xi−xˉ)2)=E(n1i=1∑n(xi)2−n2(Xi)(Xˉ)+n1i=1∑n(Xˉ)2)=E(n1i=1∑n(xi)2−2(Xˉ)2+(Xˉ)2)=E(n1i=1∑n(xi)2−(Xˉ)2)=E((Xi)2)−E((Xˉ)2)=D(Xi)+(E(Xi))2−(D(Xˉ)+(E(Xˉ))2)(4-6)
结合{4-4}和{4-5},可将{4-6}化简为
E(S2)=D(Xi)−n1D(Xi)=nn−1D(Xi)=nn−1σ2(4-7)
要使样本方差的期望等于总体方差,就需要进行修正,也即给样本方差乘上n−1n
因此得到修正后的样本方差公式:
S2=n−1n(n1i=1∑n(xi−xˉ)2)=n−11i=1∑n(xi−xˉ)2(4-8)
推导完毕!
参考资料:
www.cnblogs.com/zzdbullet/p…