开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 32 天,点击查看活动详情
(本文是第33篇活动文章)
5. 最大似然
求一组使概率(似然)最大化的参数(通过取对数后求导的方式)。
关于贝叶斯定理中不同术语的定义:
5.1 表述方式1
来自百度百科,比较清晰简单的介绍,本科统计学知识就能直观理解:
5.2 表述方式2
来自从最大似然到EM算法,不过是最小化KL散度而已 - 知乎的表述方法:
(3→4:理论上4式右半部分乘以n就可以得到3式
5→6:感觉也是比较直觉可得的)
(最小化KL散度→拟合两种分布。这里从第二行变成第三行应该是因为可视为已知常量)
5.3 在有监督分类任务中的应用
在上面我们已经推导到了:
在有监督学习模式中,就构成了一个事件:
但是我们要求的不是的期望,而是的,所以根据,从这一步:
先得到:
直接认为(事件统计概率),那么这就是个常数项:
:
在有监督分类时,仅在(即正确标签)时为1,其余情况都为0:
这一部分作者在评论区给出的解释是:这里的Y代表离散值,Y只有作为模型输出时才是连续的
这样就得到了分类问题的最大似然函数: