本文已参与「新人创作礼」活动,一起开启掘金创作之路。
关于最大似然估计法,我们有以下直观想法:现在已经取到样本值x1,x2,⋯,xn了,这表明取到这一样本值的概率L(θ)比较大。我们当然不会考虑那些不能使样本x1,x2,⋯,xn出现的θ∈Θ作为θ的估计,再者,如果已知当θ=θ0∈Θ时使L(θ)取很大值,而Θ中的其他值使L(θ)取很小值,我自自然认为取θ0作为未知参数θ的估计值较为合理
来源:《概率论与数理统计》高等教育出版社-P152
Data:X=(x1,x2,⋯,xN)T=⎝⎛x1Tx2T⋮ xNT⎠⎞N×p,xi∈Rp,xi∼iidN(μ,Σ)MLE:θMLE=θargmaxP(X∣θ),θ=(μ,Σ)
令p=1,θ=(μ,σ2)
p(x)p(x)=2πσ1exp(−2σ2(x−μ)2)=(2π)2π∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))
这里先讨论一维的情况
log P(X∣θ)=log i=1∏Np(xi∣θ)=i=1∑Nlog p(xiθ)=i=1∑Nlog 2πσ1exp(−2σ2(x−μ)2)=i=1∑N[log 2π1+log σ1−2σ2(xi−μ)2]
对于μMLE
μMLE∂μ∂i=1∑N(xi−μ)2i=1∑N2(xi−μ)(−1)i=1∑N(xi−μ)μMLE=μargmaxlogP(X∣θ)=μargmaxi=1∑N−2σ2(xi−μ)2=μargmini=1∑N(xi−μ)2=i=1∑N2(xi−μ)(−1)=0=0=N1i=1∑Nxi
对于σMLE2
σMLE2∂σ∂(−logσ−2σ21(xi−μ)2)i=1∑N[−σ1+21(xi−σ)2(−2)σ−3]−i=1∑Nσ2+i=1∑N(xi−μ)2i=1∑Nσ2σMLE2=σargmaxP(X∣θ)=σargmax(−logσ−2σ21(xi−μ)2)=i=1∑N[−σ1+21(xi−σ)2(−2)σ−3]=0=0=i=1∑N(xi−μ)2=N1i=1∑N(xi−μMLE)2
实际上,μMLE是无偏估计,σMLE2是有偏估计
对于μMLE
E(μMLE)=N1i=1∑NE(xi)=N1i=1∑Nμ=μ
对于σMLE2
σMLE2E(σMLE2)=N1i=1∑N(xi−μMLE)2=N1i=1∑N(xi2−2xiμMLE+μMLE2)=N1i=1∑Nxi2−2⋅μMLE2+μMLE2=N1i=1∑Nxi2−μMLE2=E(N1i=1∑Nxi2−μMLE2)=E[(N1i=1∑Nxi2−μ2)−(μMLE2−μ2)]=E(N1i=1∑Nxi2−μ2)−E(μMLE2−μ2)=N1i=1∑NE(xi2−μ2)−[E(μMLE2)−E(μ2)]=N1i=1∑N[E(xi2)−E(μ2)]−[E(μMLE2)−E(μ2)]=N1i=1∑N[E(xi2)−μ2]−[E(μMLE2)−μ2]=N1i=1∑N[E(xi2)−E(xi)2]−[E(μMLE2)−E(μMLE)2]=N1i=1∑NVar(xi)−Var(μMLE)=N1i=1∑Nσ2−Nσ2=NN−1σ2