变分推断(variational inference)/variational EM (3)

106 阅读1分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 32 天,点击查看活动详情

(本文是第33篇活动文章)

5. 最大似然

求一组使概率(似然)最大化的参数(通过取对数后求导的方式)。

关于贝叶斯定理中不同术语的定义:

在这里插入图片描述

5.1 表述方式1

来自百度百科,比较清晰简单的介绍,本科统计学知识就能直观理解: 在这里插入图片描述 在这里插入图片描述

5.2 表述方式2

来自从最大似然到EM算法,不过是最小化KL散度而已 - 知乎的表述方法: 在这里插入图片描述 (3→4:理论上4式右半部分乘以n就可以得到3式 5→6:感觉也是比较直觉可得的) 在这里插入图片描述 (最小化KL散度→拟合两种分布。这里从第二行变成第三行应该是因为p~(X)\tilde{p}(X)可视为已知常量)

5.3 在有监督分类任务中的应用

在上面我们已经推导到了: 在这里插入图片描述

在有监督学习模式中,(X,Y)(X,Y)就构成了一个事件: 在这里插入图片描述

但是我们要求的不是(X,Y)(X,Y)的期望,而是(YX)(Y|X)的,所以根据p(X,Y)=p(X)p(YX)p(X,Y)=p(X)p(Y|X),从这一步: 在这里插入图片描述

先得到: 在这里插入图片描述

直接认为pθ(X)=p~(X)p_\theta(X)=\tilde{p}(X)(事件统计概率),那么这就是个常数项: 在这里插入图片描述

p~(X,Y)=p~(X) p~(YX)\tilde{p}(X,Y)=\tilde{p}(X)\ \tilde{p}(Y|X)在这里插入图片描述

在有监督分类时,p~(YX)\tilde{p}(Y|X)仅在Y=YtY=Y_t(即正确标签)时为1,其余情况都为0: 在这里插入图片描述 这一部分作者在评论区给出的解释是:这里的Y代表离散值,Y只有作为模型输出时才是连续的

这样就得到了分类问题的最大似然函数: 在这里插入图片描述