变分推断的本质：用一个简单分布拟合另一个复杂分布本文正在参加人工智能创作者扶持计划变分推断是变分自编码器（Varia

本文正在参加人工智能创作者扶持计划

变分推断是变分自编码器（Variational Auto Encoder, VAE）的理论基础。后者在人工智能领域有着广泛应用，如图像生成、协同过滤.

本文介绍变分推断的基本概念、证据下界（ELBO）、理论推导.

变分推断（Variational Inference, VI）主要用于解决大数据场景下的隐变量后验分布估计问题（在数据量较小时，可以使用MCMC方法）。给定一个数据集中的观测值 $X$ 和隐变量 $Z$ ，隐变量 $Z$ 会影响观测值 $X$ 的取值，即 $Z\to X$ 。将 $Z$ 和 $X$ 当作随机变量，我们希望求得对 $Z$ 的后验分布 $p(Z|X)$ 的估计，记作 $q(Z)$ 。
变分推断的本质是选取一个恰当的分布族 $\mathcal{L}$ ，从该分布族中选取一个最好的 $q(Z)$ ，使得 $q(Z)$ 与 $p(Z|X)$ 尽可能接近。

KL(q(Z)||p(Z|X)) = E_Z\left[\log\frac{q(Z)}{p(Z|X)}\right]

q^*(Z) = {\arg\min}_{q(Z)\in\mathcal{L}}KL(q(Z)||p(Z|X))

p(Z|X) = \frac{p(Z,X)}{p(X)}=\frac{p(Z,X)}{\int_{-\infty}^{+\infty}p(X|Z)p(Z)dZ}

计算难点主要在于观测变量的边缘分布 $p(X)$ （也被称作证据(evidence)）。如果隐变量维度很高，那么计算开销将非常大。为此，需要在 $KL(q(Z)||p(Z|X))$ 动一些手脚：

KL(q(Z)||p(Z|X)) = E_Z\left[\log\frac{q(Z)}{p(Z|X)}\right]\\ = E_Z[\log q(Z)] - E_Z[\log p(Z|X)]\\ = E_Z[\log q(Z)] - E_Z[\log p(Z,X)] + E_Z[\log p(X)] \\ = - ELBO(q) + E_Z[\log p(X)]

由上面的变换可知，由于 $KL(q(Z)||p(Z|X))$ 取期望的对象是 $Z$ ，这对于证据 $p(X)$ 是没有关系的！因此我们只需要计算式中 $ELBO(q)$ ，将其最大化，即能最小化 $KL(q(Z)||p(Z|X))$ ：

ELBO(q) = E_Z[\log p(Z,X)] - E_Z[\log q(Z)]

q^*(Z) = {\arg\max}_{q(Z)\in\mathcal{L}}ELBO(q)

ELBO(q) = E_Z[\log p(Z,X)] - E_Z[\log q(Z)] \\ = E_Z[\log p(X|Z)] + E_Z[\log p(Z)] - E_Z[\log q(Z)] \\ = E_Z[\log p(X|Z)] - KL(q(Z)||p(Z))

可见ELBO由观测变量的后验分布和隐变量估计分布与其先验分布的KL散度两部分组成（注意KL散度是非对称的）。因此最大化 $ELBO(q)$ 相当于同时做以下两件事：
1. 最大化观测变量的后验分布对数期望
2. 使隐变量估计分布与其先验分布尽量接近
- 是不是有点贝叶斯推断的感觉了？
ELBO 的另一个性质来源于它的名字，即证据（的）下界：

\log p(X) = E_Z[\log p(X)] \\ = KL(q(Z)||p(Z|X)) + ELBO(q) \\ \geq ELBO(q)

关键点在于 $KL(\cdot)\geq 0$ 。VI的目标是最大化ELBO，而ELBO最大不会超过 $\log p(X)$ 。个人认为这一结论说明，观测数据本身质量好坏决定了模型的拟合效果。因此数据在VI（乃至机器学习）中扮演极端重要的角色。

KL(q(x)||p(x)) = E_{q(x)}\left[\log \frac{q(x)}{p(x)}\right]

E_{q(x)}\left[\log \frac{q(x)}{p(x)}\right] = - E_{q(x)}\left[\log \frac{p(x)}{q(x)}\right]

\geq -\log E_{q(x)}\left[\frac{p(x)}{q(x)}\right]\quad\text{(Jensen 不等式)}

= -\log\int_{-\infty}^{+\infty}\frac{p(x)}{q(x)}\cdot q(x) dx

= -\log\int_{-\infty}^{+\infty}\frac{p(x)}{q(x)}\cdot q(x) dx

= -\log\int_{-\infty}^{+\infty}p(x)dx

= 0 \quad\text{(概率密度函数的归一化性质)}

[1] David M. Blei, Alp Kucukelbir, & Jon D. McAuliffe (2016). Variational Inference: A Review for Statisticians. CoRR, abs/1601.00670.

本文正在参加人工智能创作者扶持计划

变分推断的本质：用一个简单分布拟合另一个复杂分布