3.2.4 Conditional distribution 公式3.54

66 阅读2分钟

虽然比较简单但还是记录一下吧,光看容易忘记 我们首先找到条件分布 p(xaxb)p(\mathbf{x}_a | \mathbf{x}_b) 的表达式。根据概率的乘法规则,我们可以从联合分布 p(x)=p(xa,xb)p(\mathbf{x}) = p(\mathbf{x}_a, \mathbf{x}_b) 出发,通过固定 xb\mathbf{x}_b 为观测值并归一化结果表达式来获得一个有效的概率分布。

为了更高效地得到解,可以考虑指数中的二次形式(由 (3.27) 给出),然后在计算结束时重新引入归一化系数。如果我们利用分块形式 (3.49),(3.50),和 (3.53),我们得到:

12(xμ)TΣ1(xμ)=-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) =
12(xaμa)TΛaa(xaμa)12(xaμa)TΛab(xbμb)-\frac{1}{2} (\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathrm{T} \boldsymbol{\Lambda}_{aa} (\mathbf{x}_a - \boldsymbol{\mu}_a) - \frac{1}{2} (\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathrm{T} \boldsymbol{\Lambda}_{ab} (\mathbf{x}_b - \boldsymbol{\mu}_b)
12(xbμb)TΛba(xaμa)12(xbμb)TΛbb(xbμb).(3.54)-\frac{1}{2} (\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathrm{T} \boldsymbol{\Lambda}_{ba} (\mathbf{x}_a - \boldsymbol{\mu}_a) - \frac{1}{2} (\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathrm{T} \boldsymbol{\Lambda}_{bb} (\mathbf{x}_b - \boldsymbol{\mu}_b). \tag{3.54}

我们看到,作为 xa\mathbf{x}_a 的函数,这仍然是一个二次形式,因此对应的条件分布 p(xaxb)p(\mathbf{x}_a | \mathbf{x}_b) 将是高斯分布。因为这个分布完全由其均值和协方差表征,我们的目标将是通过检查 (3.54) 来识别 p(xaxb)p(\mathbf{x}_a | \mathbf{x}_b) 的均值和协方差的表达式。

前提知识

  1. 多元高斯分布

    p(x)=1(2π)D/2Σ1/2exp(12(xμ)TΣ1(xμ))p(\mathbf{x}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})\right)

    其中 x\mathbf{x} 是一个 DD-维向量,μ\boldsymbol{\mu} 是均值向量,Σ\boldsymbol{\Sigma} 是协方差矩阵。

  2. 分块矩阵

    Σ=(ΣaaΣabΣbaΣbb)\boldsymbol{\Sigma} = \begin{pmatrix} \boldsymbol{\Sigma}_{aa} & \boldsymbol{\Sigma}_{ab} \\ \boldsymbol{\Sigma}_{ba} & \boldsymbol{\Sigma}_{bb} \end{pmatrix}

    其中 Σaa\boldsymbol{\Sigma}_{aa}Σbb\boldsymbol{\Sigma}_{bb} 分别是子向量 xa\mathbf{x}_axb\mathbf{x}_b 的协方差矩阵,而 Σab\boldsymbol{\Sigma}_{ab}Σba\boldsymbol{\Sigma}_{ba} 是它们之间的协方差矩阵。

  3. 精度矩阵

    Λ=Σ1=(ΛaaΛabΛbaΛbb)\boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1} = \begin{pmatrix} \boldsymbol{\Lambda}_{aa} & \boldsymbol{\Lambda}_{ab} \\ \boldsymbol{\Lambda}_{ba} & \boldsymbol{\Lambda}_{bb} \end{pmatrix}

推导过程

1. 联合分布的二次形式

联合分布的指数部分可以写为:

12(xμ)TΣ1(xμ)-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})

2. 分块表示

x\mathbf{x}μ\boldsymbol{\mu} 分块表示:

x=(xa xb),μ=(μa μb)\mathbf{x} = \begin{pmatrix} \mathbf{x}_a \ \mathbf{x}_b \end{pmatrix}, \quad \boldsymbol{\mu} = \begin{pmatrix} \boldsymbol{\mu}_a \ \boldsymbol{\mu}_b \end{pmatrix}

3. 替换并展开

将上述分块矩阵代入指数部分:

12(xaμaxbμb)T(ΛaaΛabΛbaΛbb)(xaμaxbμb)-\frac{1}{2} \begin{pmatrix} \mathbf{x}_a - \boldsymbol{\mu}_a & \mathbf{x}_b - \boldsymbol{\mu}_b \end{pmatrix}^\mathrm{T} \begin{pmatrix} \boldsymbol{\Lambda}_{aa} & \boldsymbol{\Lambda}_{ab} \\ \boldsymbol{\Lambda}_{ba} & \boldsymbol{\Lambda}_{bb} \end{pmatrix} \begin{pmatrix} \mathbf{x}_a - \boldsymbol{\mu}_a & \mathbf{x}_b - \boldsymbol{\mu}_b \end{pmatrix}

4. 展开矩阵乘法

12((xaμa)TΛaa(xaμa)+(xaμa)TΛab(xbμb)-\frac{1}{2} \left( (\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathrm{T} \boldsymbol{\Lambda}_{aa} (\mathbf{x}_a - \boldsymbol{\mu}_a) + (\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathrm{T} \boldsymbol{\Lambda}_{ab} (\mathbf{x}_b - \boldsymbol{\mu}_b) \right.
+(xbμb)TΛba(xaμa)+(xbμb)TΛbb(xbμb))\left. + (\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathrm{T} \boldsymbol{\Lambda}_{ba} (\mathbf{x}_a - \boldsymbol{\mu}_a) + (\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathrm{T} \boldsymbol{\Lambda}_{bb} (\mathbf{x}_b - \boldsymbol{\mu}_b) \right)

5. 最终结果

整理后得到:

12(xμ)TΣ1(xμ)=-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) =
12(xaμa)TΛaa(xaμa)12(xaμa)TΛab(xbμb)-\frac{1}{2} (\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathrm{T} \boldsymbol{\Lambda}_{aa} (\mathbf{x}_a - \boldsymbol{\mu}_a) - \frac{1}{2} (\mathbf{x}_a - \boldsymbol{\mu}_a)^\mathrm{T} \boldsymbol{\Lambda}_{ab} (\mathbf{x}_b - \boldsymbol{\mu}_b)
12(xbμb)TΛba(xaμa)12(xbμb)TΛbb(xbμb).-\frac{1}{2} (\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathrm{T} \boldsymbol{\Lambda}_{ba} (\mathbf{x}_a - \boldsymbol{\mu}_a) - \frac{1}{2} (\mathbf{x}_b - \boldsymbol{\mu}_b)^\mathrm{T} \boldsymbol{\Lambda}_{bb} (\mathbf{x}_b - \boldsymbol{\mu}_b).

这就是公式 (3.54) 的推导过程。通过这种方式,我们可以进一步分析条件分布 p(xaxb)p(\mathbf{x}_a | \mathbf{x}_b) 的均值和协方差。