机器学习-概率图模型

251 阅读8分钟

14.1 隐马尔可夫模型

概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系,即“变量关系图”。根据边的性质不同,概率图模型可大致分为两类:

第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网;

第二类是使用无向图表示变量间的相关关系,称为无向图模型或马尔可夫网。

隐马尔可夫模型(简称HMM)是结构最简单的动态贝叶斯网,这是一种著名的有向图模型,主要用于 时序数据建模,在语音识别、自然语言处理等领域有广泛应用.

隐马尔可夫模型中的变量可分为两组。第一组是状态变量 ,通常假定状态变量是隐藏的、不可被观测的,因此状态变量亦称隐变量,第二组是观测变量。

image.png

图中的箭头表示了变量间的依赖关系。在任一时刻,观测变量的取值仅依赖于状态变量,即 由 确定,与其他状态变量及观测变量的取值无关。同时,t 时刻的状态 yt 仅依赖于 t-1 时刻的状态yt - 1 ,与其余 n-2 个状态无关。这就是所谓的“马尔可夫链”,即:系统下一时刻的状态仅由当前状态决定,不依赖于以往的任何状态。基于这种依赖关系,所有变量的联合概率分布为

image.png

除了结构信息,欲确定一个隐马尔可夫模型还需以下三组参数:

状态转移概率:模型在各个状态间转换的概率,通常记为矩阵image.png ,其中

image.png

输出观测概率:模型根据当前状态获得各个观测值的概率,通常记为矩阵 ,其中

image.png

image.png

表示在任意时刻 t,若状态为si ,则观测值 oj被获取的概率.

初始状态概率:模型在初始时刻各状态出现的概率,通常记为image.png ,其中

image.png

表示模型的初始状态为si 的概率.

14.2 马尔可夫随机场

马尔可夫随机场(简称 MRF)是典型的马尔可夫网,这是一种著名的无向图模型,图中每个结点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系,马尔可夫随机场有一组势函数,亦称“因子”,这是定义在变量子集上的非负实函数,主要用于定义概率分布函数.

image.png

14.3 条件随机场

条件随机场(简称CRF)是一种判别式无向图模型。生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布进行建模。前面介绍的隐马尔可夫模型和马尔可夫随机场都是生成式模型,而条件随机场则是判别式模型.

14.4 学习与推断

基于概率图模型定义的联合概率分布,我们能对目标变量的边际分布或以某些可观测变量为条件的条件分布进行推断。条件分布我们已经接触过很多,例如在隐马尔可夫模型中要估算观测序列 x 在给定参数 λ 下的条件概率分布。边际分布则是指对无关变量求和或积分后得到结果,例如在马尔可夫网中,变量的联合分布被表示成极大团的势函数乘积,于是,给定参数 求解某个变量 x 的分布,就变成对联合分布中其他无关变量进行积分的过程,这称为“边际化”

14.4.1 变量消去

精确推断的实质是一类动态规划算法,它利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。变量消去法是最直观的精确推断算法,也是构建其他精确推断算法的基础

image.png

14.4.2 信念传播

信念传播算法将变量消去法中的求和操作看作一个消息传递过程,较好地解决了求解多个边际分布时的重复计算问题.

在信念传播算法中,一个结点仅在接收到来自其他所有结点的消息后才能向另一个结点发送消息,且结点的边际分布正比于它所接收的消息的乘积,即

image.png

14.5 近似推断

精确推断方法通常需要很大的计算开销,因此在现实应用中近似推断方法更为常用,近似推断方法大致可分为两大类:

第一类是采样,通过使用随机化方法完成近似;

第二类是使用确定性近似完成近似推断,典型代表为变分推断。

14.5.1 MCMC采样

在很多任务中,我们关心某些概率分布并非因为对这些概率分布本身感兴趣,而是要基于它们计算某些期望,并且还可能进一步基于这些期望做出决策。 例如上述贝叶斯网,进行推断的目的可能是为了计算变量 的期望。若直接计算或逼近这个期望比推断概率分布更容易,则直接操作无疑将使推断问题的求解更为高效。

采样法正是基于这个思路,具体来说,假定我们的目标是计算函数 f(x) 在概率密度函数 p(z) 下的期望

image.png

则可根据 p(x) 抽取一组样本 ,然后计算 f(x) 在这些样本上的均值

image.png

以此来近似目标期望image.png 。若样本image.png 独立,基于大数定律,这种通过大量采样的办法就能获得较高的近似精度.

概率图模型中最常用的采样技术是马尔可夫链蒙特卡罗(简称 MCMC)方法,给定连续变量 image.png 的概率密度函数 p(x),x 在区间 A 中的概率可计算为

image.png

若有函数 ,则可计算 f(x) 的期望

image.png

若 x 不是单变量而是一个高维多元变量 x,且服从一个非常复杂的分布,则对上式求积分通常很困难。为此,MCMC先构造出服从 p 分布的独立同分布随机变量,再得到上式的无偏估计

image.png

然而,若概率密度函数 p(x) 很复杂,则构造服从 p 分布的独立同分布样本也很困难。 MCMC方法的关键就在于通过构造“平稳分布为 p 的马尔可夫链” 来产生样本:若马尔可夫链运行时间足够长(即收敛到平稳状态),则此时产出的样本 x 近似服从于分布p。

14.5.2 变分推断

变分推断通过使用已知简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布

在学习变分推断之前,我们先介绍概率图模型一种简洁的表示方法——盘式记法。下图给出了一个简单的例子(a)表示 N 个变量image.png 均依赖于其他变量 z.。在(b)中,相互独立的、由相同机制生成的多个变量被放在一个方框(盘)内,并在方框中标出类似变量重复出现的个数N;方框可以联套。通常用阴影标注出已知的、能观察到的变量,如下图的变量 x。在很多学习任务中,对属性变量使用盘式记法将使得图表示非常简洁。

image.png

14.6 话题模型

话题模型是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用、隐狄利克雷分配模型(简称 LDA)是话题模型的典型代表,

我们先来了解一下话题模型中的几个概念:词、文档和话题。

“词”是待处理数据的基本离散单元,例如在文本处理 任务中,一个词就是一个英文单词或有独立意义的中文词;

“文档”是待处理的数据对象,它由一组词组成,这些词在文档中是不计顺序的,例如一篇论文、 一个网页都可看作一个文档;这样的表示方式称为“词袋”.数据对象只要能用词袋描述,就可使用话题模型.

“话题”表示一个概念,具体表示为一系列相关的词,以及它们在该概念下出现的概率.

image.png