本文已参与「新人创作礼」活动,一起开启掘金创作之路。
X∼N(μ,Σ)=(2π)2p∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))x∈Rp,r.v.
已知
p(x)p(y∣x)=N(x∣μ,Λ−1)=N(y∣Ax+b,L−1)
求p(y),p(x∣y)
对于一元实值变量x,高斯分布被定义为
N(x∣μ,σ2)=(2πσ2)211exp[−2σ21(x−μ)2]
它有两个参数控制:μ,被叫做均值,以及σ2,被叫做方差
来源:《PRML Translation》-P24
作者:马春鹏
原著:《Pattern Recognition and Machine Learning》
作者:Christopher M. Bishop
曲线拟合问题的目标是能够根据N个输入X=(x1,⋯,xN)T组成的数据集和它们对应的目标值T=(t1,⋯,tN)T,在给出输入变量x的新值的情况下,对目标变量t进行预测。我们可以使用概率分布来表达目标变量的值的不确定性。为了达到这个目的,我们要假定,给定x的值,对应的t值服从高斯分布,分布的均值为y(x,ω),由公式
y(x,ω)=ω0+ω1x+ω2x2+⋯+ωMxM=j=0∑Mωjxj给出,因此,我们有
p(t∣x,ω,β)=N(t∣y(x,ω),β−1)
其中,为了和后续章节中的记号相同,我们定义了精度参数β。它对应与分布方差的倒数,下图给出了图形化表示
![![[附件/Pasted image 20220926144302.png|400]]](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/cbd13b9419024704b090c75af4ed6e82~tplv-k3u1fbpfcp-zoom-in-crop-mark:1512:0:0:0.awebp)
用图形说明了公式p(t∣x,ω,β)=N(t∣y(x,ω),β−1)给出的给定x的条件下t的高斯条件概率分布,其中均值为多项式函数y(x,ω),精度由参数β给出,它与方差的关系为β−1=σ2
来源:《PRML Translation》-P27
作者:马春鹏
原著:《Pattern Recognition and Machine Learning》
作者:Christopher M. Bishop
yE(y)Var(y)=Ax+b+ϵ,ϵ∼N(0,L−1)=E(Ax+b+ϵ)=E(Ax+b)+E(ϵ)=Aμ+b=Var(Ax+b+ϵ)=Var(Ax+b)+Var(ϵ)=A⋅Λ−1A−1+L−1
因此y∼N(Aμ+b,L−1+AΛ−1A−1)
想求p(x∣y),如果能由已知条件推出p(x,y),则根据上一节xb∣xa∼N(μb−ΣbaΣaa−1μa+ΣbaΣaa−1xa,Σbb−ΣbaΣaa−1Σab),就可以得到p(x∣y)
zΔ=(xy)∼N([μAμ+b],[Λ−1Δ Δ L−1+AΛ−1AT])=Cov(x,y)=E{[x−E(x)]⋅[y−E(y)]T}=E[(x−μ)(y−Aμ−b)T]=E[(x−μ)(Ax+b+ϵ−Aμ−b)T]=E[(x−μ)(Ax−Aμ)T+(x−μ)ϵ T]=E[(x−μ)(Ax−Aμ)T]+0E[(x−μ)ϵT](x⊥ϵ)=E[(x−μ)(Ax−Aμ)T]=E[(x−μ)(x−μ)T⋅AT]=E[(x−μ)(x−μ)T]AT=Var(x)AT=Λ−1AT
因此(xy)∼([μAμ+b],[Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT])
再根据上一节xb∣xa∼N(μb−ΣbaΣaa−1μa+ΣbaΣaa−1xa,Σbb−ΣbaΣaa−1Σab),可得
x∣y∼(μ−Λ−1AT(L−1+AΛ−1AT)−1(y−Aμ−b),Λ−1−Λ−1AT(L−1+AΛ−1AT)−1AΛ−1)