变分推断(variational inference)/variational EM (7)(完)

403 阅读6分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 32 天,点击查看活动详情

(本文是第37篇活动文章)

7. Variational EM

对于复杂情况,我们用更简单的模型估计posterior probability。 如给定xx,我们假设有些隐变量独立于其他隐变量。

Such independence reduces complexity and allows us to deduce the analytic form of the EM.

还可以给定更强的,给定xx,所有隐变量互相独立的假设:zizj for ijz_i\perp z_j\ for\ i \neq j(mean field approximation) 这样我们就可以独立更新每个隐变量的规则。

q(z)=iq(zi)q(z) = \prod_i q(z_i),将ELBO分解为zjz_j和其他隐变量: F(q,θ)=q(z)ln(p(x,z;θ)q(z))dz=iq(zi)lnp(x,z;θ)dziq(zi)lnq(zi)dzi=q(zj)(ijq(zi)lnp(x,z;θ))ijdzidzjq(zj)lnq(zj)dzjijq(zi)lnq(zi)dzi=q(zj)ln(exp(lnp(x,z;θ)ij)q(zj))dzjijq(zi)lnq(zi)dzi=q(zj)ln(p~ijq(zj))dzj+H(zij)+c=KL(qjp~ij)+H(zij)+c\begin{aligned} F(q, \theta) & = \int q(z) \ln \Big( \frac{p(x, z; \theta)}{q(z)} \Big) dz \\ & = \int \prod_i q(z_i) \ln p(x, z; \theta) dz - \sum_i \int q(z_i) \ln q(z_i) dz_i \\ & = \int q(z_j) \int \Big( \prod_{i \neq j} q(z_i) \ln p(x, z; \theta) \Big) \prod_{i \neq j} dz_i dz_j \\ & \quad - \int q(z_j) \ln q(z_j) dz_j - \sum_{i \neq j} \int q(z_i) \ln q(z_i) dz_i \\ & = \int q(z_j) \ln \Big( \frac{\exp(\langle \ln p(x, z; \theta)\rangle_{i \neq j})}{q(z_j)} \Big) dz_j \\ & \quad - \sum_{i \neq j} \int q(z_i) \ln q(z_i) dz_i \\ & = \int q(z_j) \ln \Big( \frac{\tilde{p}_{i\neq j}}{q(z_j)} \Big) dz_j + H(z_{i\neq j}) + c\\ & = - KL(q_j || \tilde{p}_{i\neq j}) + H(z_{i\neq j}) + c \end{aligned} 在这里插入图片描述

8. 本文撰写过程中使用的其他参考资料

  1. List of mathematic operators - Wikipedia
  2. 算子 - 维基百科,自由的百科全书
  3. 琴生不等式_百度百科
  4. 琴生不等式的证明_weixin_41170664的博客-CSDN博客_琴生不等式(不等式证明部分主要参考这一篇和上一篇)
  5. 琴生不等式 - 维基百科,自由的百科全书:这个里面的表达方式太数学了,我没看懂
  6. 信息熵__寒潭雁影的博客-CSDN博客_连续随机变量信息熵
  7. 相对熵(KL散度)__寒潭雁影的博客-CSDN博客_kl三都
  8. [中字]信息熵,交叉熵,KL散度介绍||机器学习的信息论基础_哔哩哔哩_bilibili:这个视频讲得很好,讲了香农信息量、信息熵、交叉熵(熵+KL散度)公式的来历和算法
  9. 信息熵和KL散度 - 简书
  10. Machine Learning — Fundamental. “One learning algorithm” hypothesizes… | by Jonathan Hui | Medium:这一篇内容相当全面。大多我只略览,没有涵盖到本博文中。有些没看懂,以后慢慢看。 内容包括: 信息论(香农信息量、熵、交叉熵、KL散度、条件熵、信息增益/互信息) 概率(概率质量函数、概率密度函数PDF、累积分布函数CDF、条件概率、独立、边缘概率、链式法则、贝叶斯定理、概率模型、非概率模型、最大似然估计MLE、最大后验估计MAPE、贝叶斯推断、点估计、偏差、方差、独立同分布i.i.d.、协变量偏移) 分布(期望、方差、协方差、样本方差、相关系数、高斯分布/正态分布、标准正态分布、多元高斯分布、中心极限定理、伯努利分布、二项分布、分类分布、多项式分布、贝塔分布、狄利克雷分布、Symmetric Dirichlet distribution、泊松分布、指数分布、拉普拉斯分布、伽马分布、卡方分布、狄拉克分布、学生T分布、归一化因子、指数族分布、K阶矩、矩匹配、频率学派、贝叶斯学派(posterior会变成prior……这样的循环)、正则化共轭先验) 导数(雅克比矩阵、海森矩阵) 矩阵分解(成分分析、奇异值分解SVD、主成分分析PCA、Probabilistic PCA、核PCA、乔莱斯基分解法、摩尔-彭若斯广义逆) 统计显著性(零假设、备择假设、P值、Z检验、置信区间、费雪精确检验、卡方检验、探索性数据分析EDA) 概率抽样(简单随机抽样、分层随机抽样、组群随机抽样、系统随机抽样) 模型评估指标(accuracy、precision、recall/sensitivity/TPR、specificity/TNR、F1 score、FPR、miss rate/FNR、prevalence、misclassification rate、ROC曲线、R方(我看到还有一种翻译叫拟合度) 范数 相似度(Jaccard Similarity、余弦相似度、皮尔森相似度)
  11. Machine Learning — Algorithms. In the last article, we look into the… | by Jonathan Hui | Medium:这篇文章是上一篇文章的后续,介绍了一些传统机器学习方法。其中介绍了用EM算法解决MLE问题的部分,对其解读是将参数拆成两部分,分别固定其中一部分、更新另一部分。
  12. Machine Learning — Proof & Terms. Terms | by Jonathan Hui | Medium:这篇与上两篇文章也是同作者,这里面讲了用EM算法填补缺失值和求解GMM、PCA。具体的没看,反正有这么回事儿
  13. 最大似然估计_百度百科:只使用了一部分内容
  14. 从最大似然到EM算法,不过是最小化KL散度而已 - 知乎:这一篇讲得很好
  15. Statistical inference - Wikipedia:这个概念感觉比较大,这篇我还没看
  16. 边际似然函数(贝叶斯统计背景下)_Codefmeister的博客-CSDN博客_边际似然
  17. 负对数似然(negative log-likelihood)_不一样的雅兰酱的博客-CSDN博客_负对数似然函数
  18. Expectation Maximization and Variational Inference (Part 1):这一篇开头还能看得懂,等到说H(zx)H(z|x)θ\theta是常数这里之后就看不懂了。然后我就把原话搬过来了
  19. Expectation Maximization and Variational Inference (Part 2):用GMM举了个variational EM的例子,这篇实在是看你妈不懂
  20. Variational Inference for Dirichlet Process Mixtures:应该就是上一篇文章例子的出处。哎但是这个我真的看求不懂,我躺了。(这个网页好难打开,我隔了一天才打开)
  21. 一文让你完全入门EM算法:这篇写得还可以,以后补一下
  22. 谈谈Variational inference和EM算法之间的关系 - 知乎:这一篇开头的annotation写得我看不懂啊……后面的内容也有一些整合到了本博文中,但是未完全看懂,日后有机会还可以继续多看看。另外就是这一篇用期望值来定义琴生不等式,这个跟我在博文里现在写的不一样,以后可以加上用这种定义的
  23. cs229-notes8.dvi:是上一篇文章的重要参考资料之一,感觉写得比上一篇更清晰简明,而且内容很全面,从琴生不等式到变分推断都有。但是还没仔细看,决定以后把这里的内容再好好看看,加到博文里。(还是有些数学公式没看懂是咋推出来的) 这个是cs229课程的notes,等我以后有时间了,我也要去看cs229!
  24. Machine Learning — Variational Inference | by Jonathan Hui | Medium:这篇对我来说有点难了,而且不知道为什么我只能看到文字,无法显示图片。所以留待以后再看吧
  25. Evidence Lower BOund (ELBO) - 知乎:这篇给出了琴生不等式和KL散度两种推导出ELBO的算法,都已经整合到本博文里了
  26. (以下部分的内容还没有仔细看)
  27. www.cs.princeton.edu/courses/arc…
  28. 从最大似然到EM算法:一致的理解方式 - 科学空间|Scientific Spaces
  29. 基于近似计算解决推断问题——变分推断(一) - 简书
  30. Maximum Likelihood from Incomplete Data via the EM Algorithm
  31. PRML
  32. The Elements of Statistical Learning
  33. EM算法之KL散度和Jensen不等式 - 知乎:没看懂
  34. EM算法总结:从 ELBO + KL散度出发 - 知乎:没怎么看懂,而且图画得真丑
  35. variational EM – demonstrate 的 blog:从凑熵那一步开始看不懂
  36. 变分推断(Variational Inference) | 变分:没看懂这哪儿来的q(z)q(z)啊?
  37. D. G. Tzikas, A. C. Likas, and N. P. Galatsanos, The Variational Approximation for Bayesian Inference, IEEE Signal Processing Magazine, Nov 2008
  38. R.M. Neal and G.E. Hinton, A view of the EM algorithm that justifies incremental, sparse and other variants, Learning in Graphical Models, 1998
  39. Variational Methods
  40. David M Blei, Alp Kucukelbir, and Jon D McAuliffe. Variational inference: A review for statisticians. Journal of the American Statistical Association, 112(518):859–877, 2017. [2] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.