【白板推导系列笔记】数学基础-概率-高斯分布-求联合概率分布

106 阅读1分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

XN(μ,Σ)=1(2π)p2Σ12exp(12(xμ)TΣ1(xμ))xRp,r.v. \begin{gathered} X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\\ x \in \mathbb{R}^{p},r.v.\\ \end{gathered}

已知

p(x)=N(xμ,Λ1)p(yx)=N(yAx+b,L1) \begin{aligned} p(x)&=N(x|\mu,\Lambda^{-1})\\ p(y|x)&=N(y|Ax+b,L^{-1}) \end{aligned}

p(y),p(xy)p(y),p(x|y)

 

对于一元实值变量xx,高斯分布被定义为

N(xμ,σ2)=1(2πσ2)12exp[12σ2(xμ)2]N(x|\mu,\sigma^{2})=\frac{1}{(2\pi \sigma^{2})^{\frac{1}{2}}}\text{exp}\left[- \frac{1}{2\sigma^{2}}(x-\mu)^{2}\right]

它有两个参数控制:μ\mu,被叫做均值,以及σ2\sigma^{2},被叫做方差

来源:《PRML Translation》-P24

作者:马春鹏

原著:《Pattern Recognition and Machine Learning》

作者:Christopher M. Bishop

 

曲线拟合问题的目标是能够根据NN个输入X=(x1,,xN)TX=(x_{1},\cdots ,x_{N})^{T}组成的数据集和它们对应的目标值T=(t1,,tN)TT=(t_{1},\cdots ,t_{N})^{T},在给出输入变量xx的新值的情况下,对目标变量tt进行预测。我们可以使用概率分布来表达目标变量的值的不确定性。为了达到这个目的,我们要假定,给定xx的值,对应的tt值服从高斯分布,分布的均值为y(x,ω)y(x,\omega),由公式

y(x,ω)=ω0+ω1x+ω2x2++ωMxM=j=0Mωjxjy(x,\omega)=\omega_{0}+\omega_{1}x+\omega_{2}x^{2}+\cdots +\omega_{M}x^{M}=\sum\limits_{j=0}^{M}\omega_{j}x^{j}给出,因此,我们有

p(tx,ω,β)=N(ty(x,ω),β1)p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})

其中,为了和后续章节中的记号相同,我们定义了精度参数β\beta。它对应与分布方差的倒数,下图给出了图形化表示

![[附件/Pasted image 20220926144302.png|400]]

用图形说明了公式p(tx,ω,β)=N(ty(x,ω),β1)p(t|x,\omega,\beta)=N(t|y(x,\omega),\beta^{-1})给出的给定xx的条件下tt的高斯条件概率分布,其中均值为多项式函数y(x,ω)y(x,\omega),精度由参数β\beta给出,它与方差的关系为β1=σ2\beta^{-1}=\sigma^{2}

来源:《PRML Translation》-P27

作者:马春鹏

原著:《Pattern Recognition and Machine Learning》

作者:Christopher M. Bishop

 

y=Ax+b+ϵ,ϵN(0,L1)E(y)=E(Ax+b+ϵ)=E(Ax+b)+E(ϵ)=Aμ+bVar(y)=Var(Ax+b+ϵ)=Var(Ax+b)+Var(ϵ)=AΛ1A1+L1 \begin{aligned} y&=Ax+b+\epsilon ,\epsilon \sim N(0,L^{-1})\\ E(y)&=E(Ax+b+\epsilon )\\ &=E(Ax+b)+E(\epsilon )\\ &=A \mu+b\\ \text{Var}(y)&=\text{Var}(Ax+b+\epsilon )\\ &=\text{Var}(Ax+b)+\text{Var}(\epsilon )\\ &=A \cdot \Lambda^{-1}A^{-1}+L^{-1} \end{aligned}

因此yN(Aμ+b,L1+AΛ1A1)y \sim N(A \mu+b,L^{-1}+A \Lambda^{-1}A^{-1})

想求p(xy)p(x|y),如果能由已知条件推出p(x,y)p(x,y),则根据上一节xbxaN(μbΣbaΣaa1μa+ΣbaΣaa1xa,ΣbbΣbaΣaa1Σab)x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}),就可以得到p(xy)p(x|y)

z=(xy)N([μAμ+b],[Λ1Δ Δ L1+AΛ1AT])Δ=Cov(x,y)=E{[xE(x)][yE(y)]T}=E[(xμ)(yAμb)T]=E[(xμ)(Ax+b+ϵAμb)T]=E[(xμ)(AxAμ)T+(xμ)ϵ T]=E[(xμ)(AxAμ)T]+E[(xμ)ϵT]0(xϵ)=E[(xμ)(AxAμ)T]=E[(xμ)(xμ)TAT]=E[(xμ)(xμ)T]AT=Var(x)AT=Λ1AT \begin{aligned} z&=\begin{pmatrix} x \\ y \end{pmatrix}\sim N\left(\begin{bmatrix} \mu \\ A \mu+b \end{bmatrix},\begin{bmatrix} \Lambda^{-1} & \Delta  \\ \Delta  & L^{-1}+A \Lambda^{-1}A^{T} \end{bmatrix}\right)\\ \Delta &=\text{Cov}(x,y)\\ &=E \left\{[x-E(x)]\cdot [y-E(y)]^{T}\right\}\\ &=E [(x-\mu)(y-A \mu-b)^{T}]\\ &=E[(x-\mu)(Ax+b+\epsilon -A \mu-b)^{T}]\\ &=E[(x-\mu)(Ax-A \mu)^{T}+(x-\mu)\epsilon  ^{T}]\\ &=E[(x-\mu)(Ax-A \mu)^{T}]+\underbrace{E[(x-\mu)\epsilon ^{T}]}_{0}\quad (x \bot \epsilon )\\ &=E[(x-\mu)(Ax-A \mu)^{T}]\\ &=E[(x-\mu)(x-\mu)^{T}\cdot A^{T}]\\ &=E[(x-\mu)(x-\mu)^{T}]A^{T}\\ &=\text{Var}(x)A^{T}\\ &=\Lambda^{-1}A^{T} \end{aligned}

因此(xy)([μAμ+b],[Λ1Λ1ATAΛ1L1+AΛ1AT])\begin{pmatrix}x \\ y\end{pmatrix}\sim \left(\begin{bmatrix}\mu \\ A \mu+b\end{bmatrix},\begin{bmatrix}\Lambda^{-1} & \Lambda^{-1}A^{T} \\ A \Lambda^{-1} & L^{-1}+A \Lambda^{-1}A^{T}\end{bmatrix}\right)

再根据上一节xbxaN(μbΣbaΣaa1μa+ΣbaΣaa1xa,ΣbbΣbaΣaa1Σab)x_{b}|x_{a} \sim N(\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_{a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_{a},\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}),可得

xy(μΛ1AT(L1+AΛ1AT)1(yAμb),Λ1Λ1AT(L1+AΛ1AT)1AΛ1) x|y \sim (\mu-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}(y-A \mu-b),\Lambda^{-1}-\Lambda^{-1}A^{T}(L^{-1}+A \Lambda^{-1}A^{T})^{-1}A \Lambda^{-1})