本文已参与「新人创作礼」活动,一起开启掘金创作之路。
没目录,个人感觉都是概率论到目前为止最重要的一章
定义:如果随机变量X1,X2,⋯,Xn相互独立且都与总体X同分布,则称X1,X2,⋯,Xn为来自总体的简单随机样本,简称样本。n为样本容量,样本的具体观测值x1,x2,⋯,xn称为样本值,或称总体X的n个独立观测值
如果总体X的分布为F(x),则样本X1,X2,⋯,Xn的分布为
F(x1,x2,⋯,xn)=P{X1≤x1,X2≤x2,⋯,Xn≤xn}=P{X1≤x1}P{X2≤x2}⋯P{Xn≤xn}=F(x1)F(x2)⋯F(xn)=i=1∏nF(xi)
如果总体X有概率密度f(x),则样本X1,X2,⋯,Xn的概率密度为
fn(x1,x2,⋯,xn)=i=1∏nf(xi)
如果总体X有概率分布P{X=aj}=pj,j=1,2,⋯,则样本X1,X2,⋯,Xn的概率分布为
P{X1=x1,X2=x2,⋯,Xn=xn}=i=1∏nP{Xi=xi}
定义:样本X1,X2,⋯,Xn的不含未知参数的函数T=T(X1,X2,⋯,Xn)称为统计量
作为随机变量的函数,统计量本身也是一个随机变量。如果x1,x2,⋯,xn是样本X1,X2,⋯,Xn的样本值,T(x1,x2,⋯,xn)为统计量T(X1,X2,⋯,Xn)的观测值
下面所列的样本数字特征、顺序统计量都是最常用的统计量
设X1,X2,⋯,Xn是来自总体X的样本,则称
样本均值
Xˉ=n1i=1∑nXi
样本方差
S2=n−11i=1∑n(X1−Xˉ)2
样本标准差
S=n−11i=1∑n(Xi−Xˉ)2
样本k阶原点矩
Ak=n1i=1∑nXik,k=1,2,,A1Xˉ
样本k阶中心矩
Bk=n1i=1∑n(Xi−Xˉ)k,k=1,2,B2=nn−1S2=S2
如果已知随机变量X的期望为μ,那么可以计算方差σ2:
σ2=E[(X−μ)2]
但是对于X的具体分布是无法预知的,计算起来也比较复杂,在实际中采用采样后的样本方差进行近似,定义s2来近似σ2:
S2=n1∑in(Xi−μ)2
同样地,对于X的期望μ的值也不清楚,只能用样本均值近似:
Xˉ=n1∑inXi
最后,可以得到,s2的公式为:
S2=n−11∑i=1n(Xi−Xˉ)2
下面是证明:
E[S2]=E[n1i=1∑n(Xi−Xˉ)2]=E[n1i=1∑n((Xi−μ)−(Xˉ−μ))2]=E[n1i=1∑n((Xi−μ)2−2(Xˉ−μ)(Xi−μ)+(Xˉ−μ)2)]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)i=1∑n(Xi−μ)+n1(Xˉ−μ)2i=1∑n1]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)i=1∑n(Xi−μ)+n1(Xˉ−μ)2n]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)i=1∑n(Xi−μ)+(Xˉ−μ)2]
其中,
Xˉ−μ=n1i=1∑nXi−μ=n1i=1∑nXi−n1i=1∑nμ=n1i=1∑n(Xi−μ)
然后将其带入上面的式子,可以得到
E[S2]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)i=1∑n(Xi−μ)+(Xˉ−μ)2]=E[n1i=1∑n(Xi−μ)2−n2(Xˉ−μ)n(Xˉ−μ)+(Xˉ−μ)2]=E[n1i=1∑n(Xi−μ)2−2(Xˉ−μ)2+(Xˉ−μ)2]=E[n1i=1∑n(Xi−μ)2−(Xˉ−μ)2]=E[n1i=1∑n(Xi−μ)2]−E[(Xˉ−μ)2]=σ2−E[(Xˉ−μ)2]
其中,
E[(Xˉ−μ)2]=E[(Xˉ−E[Xˉ])2]=var(Xˉ)=var(n∑i=1nXi)=n21var(i∑nXi)(因为var(aX)=a2var(X))=n21i=1∑nvar(Xi)(因为var(i=1∑nXi)=i=1∑nvar(Xi))=n2nσ2=n1σ2
所以,可得E[n1∑i=1n(Xi−Xˉ)2]=σ2−n1σ2=nn−1σ2
说明利用采样得到的样本计算的方差与真实值有偏差,低估了n1σ2,那么进行调整可以得到:
n−1nE[n1∑i=1n(Xi−Xˉ)2]=E[n−11∑i=1n(Xi−Xˉ)2]=σ2
可以得到
S2=n−11∑i=1n(Xi−Xˉ)2
证明完成
作者:YaoYong
链接:样本方差为什么是n-1-推导 - 知乎 (zhihu.com)
性质:
如果总体X具有数学期望E(X)=μ,则
E(Xˉ)=E(n1i=1∑nXi)=n1i=1∑nE(Xi)=E(Xi)=μ
如果总体X具有方差D(X)=σ2,则
D(Xˉ)E(S2)=D(n1i=1∑nXi)=n21i=1∑nD(Xi)=n1D(Xi)=nσ2=E[n−11i=1∑n(Xi−Xˉ)2]=E[n−11i=1∑n(Xi2+Xˉ2−2XiXˉ)]=n−11[E(i=1∑nXi2)+E(i=1∑nXˉ2)−2E(i=1∑nXiXˉ)]=n−11[i=1∑nE(Xi2)+nE(Xˉ2)−2nE(Xˉ2)]=n−11[i=1∑nE(Xi2)−nE(Xˉ2)]=n−11{i=1∑n[D(Xi)+E(Xi)2]−n[D(Xˉ)−E(Xˉ)2]}=n−11[n(σ2+μ2)−n(nσ2+μ2)]=σ2
如果总体X的k解原点矩E(Xk)=μk,k=,1,2⋯存在,则当n→∞时
n1i=1∑nXik→Pμk,k=1,2,⋯
例1:设来自总体的样本X1,X2,⋯,Xn的样本均值Xˉ,试证i=1∑n(Xi−Xˉ)2=i=1∑nXi2−nXˉ2
i=1∑n(Xi−Xˉ)2=i=1∑n(Xi2−2XiXˉ+Xˉ2)=i=1∑nXi2−2nni=1∑nXiXˉ+i=1∑nXˉ2=i=1∑nXi2−2nXˉ2+nXˉ2=i=1∑nXi2−nXˉ2
很常用,建议记住
i=1∑n(Xi−Xˉ)2=i=1∑nXi2−nXˉ2
如果上面都看懂的,例2可以不看,基本就是E(S2)的重复
例2:总体X的数学期望和方差都存在,且EX=μ,DX=σ2。来自总体X的样本X1,X2,⋯,Xn,试求
- E[i=1∑n(Xi−μ)2]
E[n1i=1∑n(Xi−μ)2]=n1i=1∑nE(Xi−μ)2=n1i=1∑nE(Xi−EXi)2=n1i=1∑nDXi=σ2
- E[n1i=1∑n(Xi−Xˉ)2]
E[n1i=1∑n(Xi−Xˉ)2]=n1E[i=1∑nXi2−nXˉ2]=n1(i=1∑nEXi2−nEXˉ2)=n1{i=1∑n[DXi+(EXi)2]−n[DXˉ+(EXˉ)2]}=n1[n(σ2+μ2)−n(nσ2+μ2)]=nn−1σ2
例3:设总体X∼B(1,p),则来自总体X的样本X1,X2,⋯,Xn的样本均值Xˉ的分布律为()
X1,X2,⋯,Xn相互独立,Xi可看成一次伯努利试验,所以i=1∑nXi可以看成n次独立重复伯努利试验,即
i=1∑nXi∼B(n,p)
有
P{i=1∑nXi=k}P⎩⎨⎧ni=1∑nXi=nk⎭⎬⎫P{Xˉ=nk}=Cnkpk(1−p)n−k,k=0,1,2,⋯,n=Cnkpk(1−p)n−k=Cnkpk(1−p)n−k