一、概述

当我们处理概率模型时，我们可以从两个不同的视角看待问题：频率学派的视角和贝叶斯的视角。在频率学派的视角下，我们将问题视为一个优化问题，假设模型的最佳参数是一个确定的常数。我们可以回顾一下线性回归（我们使用最小二乘法定义损失函数），支持向量机（最终转化为一个约束优化问题），以及EM算法（我们通过迭代求解模型的参数）。这些方法共享一个特性，那就是它们都在参数空间中寻找最优参数，因此最后都变成了优化问题。

但是，当我们从贝叶斯的视角来看待问题时，问题变成了一个积分问题。在这种情况下，模型的参数并不是一个确定的常数，而是服从一个分布。对于一组给定的样本数据 $X$ ，我们需要对新的样本 $\hat{x}$ 进行评估。

那么为什么从贝叶斯角度来看就会是一个积分问题呢？现在以贝叶斯的角度来看待问题，模型的参数此时并非确定的常数，而是服从一个分布。如果已有多个样本数据记作 $X$ ，对于新的样本 $\hat{x}$ ，需要得到：

$p(\hat{x}|X)=\int _{\theta }p(\hat{x},\theta |X)\mathrm{d}\theta =\int _{\theta }p(\hat{x}|\theta ,X)p(\theta |X)\mathrm{d}\theta \\ \overset{\hat{x}与X独立}{=}\int _{\theta }p(\hat{x}|\theta)p(\theta |X)\mathrm{d}\theta =E_{\theta |X}[p(\hat{x}|\theta )]$

如果新样本和数据集独立，那么这个推断问题就是求概率分布依参数后验分布的期望。推断问题的核心是参数后验分布的求解，推断分为：

精确推断
近似推断-参数空间无法精确求解：

①确定性近似-如变分推断

②随机近似-如 MCMC，MH，Gibbs

二、公式导出

有以下数据：

$X$ :observed variable

$Z$ :latent variable $+$ parameter

$(X, Z)$ :complete data

我们记 $Z$ 为隐变量和参数的集合（注意这里和以前不太一样，这里的 $Z$ 是隐变量+参数）。接着我们变换概率 $p(X)$ 的形式然后引入分布 $q(Z)$ ，这里的 $X$ 指的是单个样本:

\log p(X)=\log p(X, Z)-\log p(Z \mid X)=\log \frac{p(X, Z)}{q(Z)}-\log \frac{p(Z \mid X)}{q(Z)}

式子两边同时对 $q(Z)$ 求积分:

$左边=\int _{Z}q(Z)\cdot log\; p(X)\mathrm{d}Z=log\; p(X)\int _{Z}q(Z )\mathrm{d}Z=log\; p(X) \\ 右边=\underset{ELBO(evidence\; lower\; bound)}{\underbrace{\int _{Z}q(Z)log\; \frac{p(X,Z)}{q(Z)}\mathrm{d}Z}}\underset{KL(q(Z)||p(Z|X,))}{\underbrace{-\int _{Z}q(Z)log\; \frac{p(Z|X)}{q(Z)}\mathrm{d}Z}} \\ =\underset{变分}{\underbrace{L(q)}} + \underset{\geq 0}{\underbrace{KL(q||p)}}$

分布 $q$ 是用来近似后验 $p$ 的，我们的目的是找到一个分布 $q$ 使得 $q$ 与 $p$ 最接近，也就是使 $K L(q \| p)$ 越小越好，相当于使 $L(q)$ 越大越好 (注意 $q(Z)$ 其实指的是 $q(Z \mid X)$ ，我们只是简写成 $q(Z))$ ：

\tilde{q}(Z)=\underset{q(Z)}{\operatorname{argmax}} L(q) \Rightarrow \tilde{q}(Z) \approx p(Z \mid X)

$Z$ 是一个高维随机变量，在变分推断中我们对 $q(Z$ ) 做以下假设（基于平均场假设的变分推断)，也就是说我们把多维变量的不同维度分为 $M$ 组，组与组之间是相互独立的:

q(Z)=\prod_{i=1}^M q_i\left(Z_i\right)

求解时我们固定 $q_i\left(Z_i\right), i \neq j$ 来求 $q_j\left(Z_j\right)$ ，接下来将 $L(q)$ 写作两部分:

$L(q)=\underset{①}{\underbrace{\int _{Z}q(Z)log\; p(X,Z)\mathrm{d}Z}}-\underset{②}{\underbrace{\int _{Z}q(Z)log\; q(Z)\mathrm{d}Z}}$

对于①：

$①=\int _{Z}\prod_{i=1}^{M}q_{i}(Z_{i})log\; p(X,Z)\mathrm{d}Z_{1}\mathrm{d}Z_{2}\cdots \mathrm{d}Z_{M}\\ =\int _{Z_{j}}q_{j}(Z_{j})\underset{\int _{Z-Z_{j}}log\; p(X,Z)\prod_{i\neq j}^{M}q_{i}(Z_{i})\mathrm{d}Z_{i}}{\underbrace{\left (\int _{Z-Z_{j}}\prod_{i\neq j}^{M}q_{i}(Z_{i})log\; p(X,Z)\underset{(i\neq j)}{\mathrm{d}Z_{1}\mathrm{d}Z_{2}\cdots \mathrm{d}Z_{M}}\right )}}\mathrm{d}Z_{j}\\ =\int _{Z_{j}}q_{j}(Z_{j})\cdot E_{\prod_{i\neq j}^{M}q_{i}(Z_{i})}[log\; p(X,Z)]\cdot \mathrm{d}Z_{j}$

对于②：

$②=\int _{Z}q(Z)log\; q(Z)\mathrm{d}Z\\ =\int _{Z}\prod_{i=1}^{M}q_{i}(Z_{i})\sum_{i=1}^{M}log\; q_{i}(Z_{i})\mathrm{d}Z\\ =\int _{Z}\prod_{i=1}^{M}q_{i}(Z_{i})[log\; q_{1}(Z_{1})+log\; q_{2}(Z_{2})+\cdots +log\; q_{M}(Z_{M})]\mathrm{d}Z\\ 其中\int _{Z}\prod_{i=1}^{M}q_{i}(Z_{i})log\; q_{1}(Z_{1})\mathrm{d}Z\\ =\int _{Z_{1}Z_{2}\cdots Z_{M}}q_{1}(Z_{1})q_{2}(Z_{2})\cdots q_{M}(Z_{M})\cdot log\; q_{1}(Z_{1})\mathrm{d}Z_{1}\mathrm{d}Z_{2}\cdots \mathrm{d}Z_{M}\\ =\int _{Z_{1}}q_{1}(Z_{1})log\; q_{1}(Z_{1})\mathrm{d}Z_{1}\cdot \underset{=1}{\underbrace{\int _{Z_{2}}q_{2}(Z_{2})\mathrm{d}Z_{2}}}\cdot \underset{=1}{\underbrace{\int _{Z_{3}}q_{3}(Z_{3})\mathrm{d}Z_{3}}}\cdots \underset{=1}{\underbrace{\int _{Z_{M}}q_{M}(Z_{M})\mathrm{d}Z_{M}}}\\ =\int _{Z_{1}}q_{1}(Z_{1})log\; q_{1}(Z_{1})\mathrm{d}Z_{1}\\ 也就是说\int _{Z}\prod_{i=1}^{M}q_{i}(Z_{i})log\; q_{k}(Z_{k})\mathrm{d}Z=\int _{Z_{k}}q_{k}(Z_{k})log\; q_{k}(Z_{k})\mathrm{d}Z_{k}\\ 则②=\sum_{i=1}^{M}\int _{Z_{i}}q_{i}(Z_{i})log\; q_{i}(Z_{i})\mathrm{d}Z_{i}\\ =\int _{Z_{j}}q_{j}(Z_{j})log\; q_{j}(Z_{j})\mathrm{d}Z_{j}+C$

然后我们可以得到 $①-②\;$ ：

$首先①=\int _{Z_{j}}q_{j}(Z_{j})\cdot\underset{写作log\; \hat{p}(X,Z_{j})}{ \underbrace{E_{\prod_{i\neq j}^{M}q_{i}(Z_{i})}[log\; p(X,Z)]}}\cdot \mathrm{d}Z_{j} \\ 然后①-②=\int _{Z_{j}}q_{j}(Z_{j})\cdot log\frac{\hat{p}(X,Z_{j})}{q_{j}(Z_{j})}\mathrm{d}Z_{j}+C \\ \int _{Z_{j}}q_{j}(Z_{j})\cdot log\frac{\hat{p}(X,Z_{j})}{q_{j}(Z_{j})}\mathrm{d}Z_{j}=-KL(q_{j}(Z_{j})||\hat{p}(X,Z_{j}))\leq 0$

当 $q_{j}(Z_{j})=\hat{p}(X,Z_{j})$ 才能得到最⼤值。

三、回顾EM算法

回想一下广义EM算法中，我们需要固定 $\theta$ 然后求解与 $p$ 最接近的 $q$ ，这里就可以使用变分推断的方法，我们有如下式子：

$log\; p_{\theta }(X)=\underset{L(q)}{\underbrace{ELBO}}+\underset{\geq 0}{\underbrace{KL(q||p)}}\geq L(q)$

然后求解 $q$ ：

$\hat{q}=\underset{q}{argmin}\; KL(q||p)=\underset{q}{argmax}\; L(q)$

如果我们使用类似于平均场变分推断的方法，我们可以得到一些结果。在这里， $Z_i$ 并不代表 $Z$ 的第 $i$ 个维度，而是指一组互相独立的变量。对于每一个 $q_j\left(Z_j\right)$ ，我们都固定其余的 $q_i\left(Z_i\right)$ ，然后求解这个值。我们可以使用坐标上升的方法进行迭代求解。上述的推导适用于单个样本，也适用于数据集。

$log\; q_{j}(Z_{j})=E_{\prod_{i\neq j}^{M}q_{i}(Z_{i})}[log\; p_{\theta }(X,Z)]\\ =\int _{Z_{1}}\int _{Z_{2}}\cdots \int _{Z_{j-1}}\int _{Z_{j+1}}\cdots \int _{Z_{M}}q_{1}q_{2}\cdots q_{j-1}q_{j+1}\cdots q_{M}\cdot log\; p_{\theta }(X,Z)\mathrm{d}Z_{1}\mathrm{d}Z_{2}\cdots \mathrm{d}Z_{j-1}\mathrm{d}Z_{j+1}\cdots \mathrm{d}Z_{M}$

一次迭代求解的过程如下：

$log\; \hat{q}_{1}(Z_{1})=\int _{Z_{2}}\cdots \int _{Z_{M}}q_{2}\cdots q_{M}\cdot log\; p_{\theta }(X,Z)\mathrm{d}Z_{2}\cdots \mathrm{d}Z_{M}\\ log\; \hat{q}_{2}(Z_{2})=\int _{Z_{1}}\int _{Z_{3}}\cdots \int _{Z_{M}}\hat{q}_{1}q_{3}\cdots q_{M}\cdot log\; p_{\theta }(X,Z)\mathrm{d}Z_{1}\mathrm{d}Z_{3}\cdots \mathrm{d}Z_{M}\\ \vdots \\ log\; \hat{q}_{M}(Z_{M})=\int _{Z_{1}}\cdots \int _{Z_{M-1}}\hat{q}_{1}\cdots \hat{q}_{M-1}\cdot log\; p_{\theta }(X,Z)\mathrm{d}Z_{1}\cdots \mathrm{d}Z_{M-1}$

我们看到，对每一个 $q_j\left(Z_j\right)$ ，都是固定其余的 $q_i\left(Z_i\right)$ ，求这个值，于是可以使用坐标上升的方法进行迭代求解，上面的推导针对单个样本，但是对数据集也是适用的。需要注意的是变分推断中参数 $\theta$ 是一个随机变量，因此 $Z$ 既包括隐变量也包括参数 $\theta$ ，而在广义EM算法中， $\theta$ 被假设存在一个最优的常量，我们虽然也应用了平均场理论的方法，但是这里的 $Z$ 只包括隐变量， $\theta$ 在这一步中被固定住了，相当于广义EM算法的E-step。

基于平均场假设的变分推断存在一些问题:

(1)假设太强，非常复杂的情况下，假设不适用；

(2)期望中的多重积分，计算量大，可能无法计算。

四、随机梯度变分推断 (SGVI)

直接求导数的方法

从 $Z$ 到 $X$ 的过程叫做生成过程或解码过程，相当于Decoder（从不可见的 $Z$ 生成可见的 $X$ ）。从 $X$ 到 $Z$ 的过程叫做推断过程或编码过程，相当于Encoder（从可见的 $X$ 推断出不可见的 $Z$ ）。基于平均场的变分推断可以导出坐标上升的算法，但是这个假设在一些情况下过于强烈，同时积分也可能无法计算。除了坐标上升，优化方法还有梯度上升，我们希望通过梯度上升得到变分推断的另一种算法。

首先假定 $q(Z)=q_\phi(Z)$ ，是和 $\phi$ 这个参数相关联的概率分布。于是有:

\underset{q(Z)}{\operatorname{argmax}} L(q)=\underset{\phi}{\operatorname{argmax}} L(\phi)

其中 $L(\phi)=E_{q_\phi}\left[\log p_\theta(X, Z)-\log q_\phi(Z)\right]$ ，这里的 $X$ 表示的是一个样本。

接下来我们关于 $\phi$ 求偏导 $\nabla_{\phi }$

$\nabla_{\phi }L(\phi )=\nabla_{\phi }E_{q_{\phi }}[log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]\\ =\nabla_{\phi }\int q_{\phi }(Z)[log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]\mathrm{d}Z \\ =\underset{①}{\underbrace{\int \nabla_{\phi }q_{\phi }(Z)\cdot [log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]\mathrm{d}Z}}+\underset{②}{\underbrace{\int q_{\phi }(Z)\nabla_{\phi }[log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]\mathrm{d}Z}}\\ 其中②=\int q_{\phi }(Z)\nabla_{\phi }[\underset{与\phi 无关}{\underbrace{log\; p_{\theta }(X,Z)}}-log\; q_{\phi }(Z)]\mathrm{d}Z\\ =-\int q_{\phi }(Z)\nabla_{\phi }log\; q_{\phi }(Z)\mathrm{d}Z\\ =-\int q_{\phi }(Z)\frac{1}{q_{\phi }(Z)}\nabla_{\phi }q_{\phi }(Z)\mathrm{d}Z\\ =-\int \nabla_{\phi }q_{\phi }(Z)\mathrm{d}Z\\ =-\nabla_{\phi }\int q_{\phi }(Z)\mathrm{d}Z\\ =-\nabla_{\phi }1\\ =0\\ 因此\nabla_{\phi }L(\phi )=①\\ =\int {\color{Red}{\nabla_{\phi }q_{\phi }(Z)}}\cdot [log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]\mathrm{d}Z\\ =\int {\color{Red}{q_{\phi }(Z)\nabla_{\phi }log\; q_{\phi }(Z)}}\cdot [log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]\mathrm{d}Z\\ =E_{q_{\phi }}[(\nabla_{\phi }log\; q_{\phi }(Z))(log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z))]$

这个期望可以通过蒙特卡洛采样来近似，从而得到梯度，然后利用梯度上升的方法来得到参数：

$Z^{(l)}\sim q_{\phi }(Z)\\ E_{q_{\phi }}[(\nabla_{\phi }log\; q_{\phi }(Z))(log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z))]\approx \frac{1}{L}\sum_{i=1}^{L}(\nabla_{\phi }log\; q_{\phi }(Z^{(l)}))(log\; p_{\theta }(X,Z^{(l)})-log\; q_{\phi }(Z^{(l)}))$

但是，存在一个问题，求和符号中有一个对数项 $log; p_{\theta }$ ，所以如果我们直接采样，如果采样到 $q_{\phi }(Z)$ 接近于 $0$ 的样本点，这会造成对数值极不稳定，也就是说直接采样的方差很大，需要非常多的样本。并且，如果计算出的梯度误差已经非常大，那么所得到的 $\hat{\phi}$ 就会有很大的误差， $\hat{\phi}$ 是 $q(z)$ 的参数，误差会一层一层地传递，最后的结果可能会不理想。为了解决方差太大的问题，我们采用了一个技巧，叫做重参数化技巧（Reparameterization）。

重参数化技巧

我们定义 $Z=g_{\phi }(\varepsilon ,X),\varepsilon \sim p(\varepsilon )$ ，对于 $Z\sim q_{\phi }(Z|X)$ ，我们有 $\left | q_{\phi }(Z|X)\mathrm{d}Z \right |=\left | p(\varepsilon )\mathrm{d}\varepsilon \right |$ 。这是为了将 $Z$ 的随机性转移到 $\varepsilon$ 上，使得我们可以将求梯度的操作移到期望的中括号里面，具体如下：

$\nabla_{\phi }L(\phi )=\nabla_{\phi }E_{q_{\phi }}[log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]\\ =\nabla_{\phi }\int q_{\phi }(Z)[log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]\mathrm{d}Z\\ =\nabla_{\phi }\int [log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]{\color{Red}{q_{\phi }(Z)\mathrm{d}Z}}\\ =\nabla_{\phi }\int [log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]{\color{Red}{p(\varepsilon )\mathrm{d}\varepsilon }}\\ =\nabla_{\phi }E_{p(\varepsilon )}(log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z)]\\ =E_{p(\varepsilon )}[\nabla_{\phi }(log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z))]\\ =E_{p(\varepsilon )}[\nabla_{Z}(log\; p_{\theta }(X,Z)-log\; q_{\phi }(Z))\nabla_{\phi }Z]\\ =E_{p(\varepsilon )}[\nabla_{Z}(log\; p_{\theta }(X^{(i)},Z)-log\; q_{\phi }(Z|X^{(i)}))\nabla_{\phi }g_{\phi }(\varepsilon^{(l)} ,X^{(i)})]$
解释一下倒数第二步，链式求导法则
$\frac{\partial f}{\partial \phi}=\frac{\partial f}{\partial z} \cdot \frac{\partial z}{\partial \phi} \quad z=g(\phi)$
最后一步所有Z都可以看成 $g_{\phi }(\varepsilon^{(l)} ,X^{(i)})， l = 1,2,...,L$ ， $X^{(i)}$ 为第i个样本，只是在最后一步列出了完整式子

对最终这个中括号里的式子进行蒙特卡洛采样，然后计算期望，得到梯度。这里的采样就是从 $p(\varepsilon )$ 中进行采样了。

SGVI的迭代过程为：

$\phi ^{t+1}\leftarrow \phi ^{t}+\lambda ^{t}\cdot \nabla_{\phi }L(\phi )$

这就是典型的梯度上升，蒙特卡洛采样的方法会在后面的文章中介绍。

总结

EM算法解决的是含有隐变量的参数估计问题（是一个优化方法）；而VI解决的是后验概率的推断问题，求的是概率分布；SGVI的思想是在VI的基础之上，通过假设分布类型，将分布估计转换为参数估计。

“开启掘金成长之旅！这是我参与「掘金日新计划 · 2 月更文挑战」的第 10 天，点击查看活动详情”

13.掌握变分推断：一个统计学的重要工具

一、概述

二、公式导出

三、回顾EM算法

四、随机梯度变分推断 (SGVI)

总结