贝叶斯综述(2)

405 阅读3分钟

「这是我参与11月更文挑战的第14天,活动详情查看:2021最后一次更文挑战

简介

上面一章内容主要是介绍了贝叶斯的定义,贝叶斯的结构形式一些基本的内容。现在这章主要是介绍贝叶斯网络的定义和贝叶斯网络的结构学习。

贝叶斯网络

贝叶斯网络的定义

由结构G和参数Θ两部分组成。结构G为一个有向无环图G=(V,E),其中节点集合为V={X1,X2,…,Xn},有向边集合E描述变量间的依赖关系。参数Θ为一组条件概率分布,每个节点存储其自身与其父节点集合之间的条件概率分布,即P(Xi|Pa(Xi)),Pa(Xi)代表Xi的父节点集。同时贝叶斯网络也包含定性和定量两部分内容。G是模型的定性知识表示,用于描述变量间的概率依赖关系或独立关系,弧的方向具有因果定义,可进行因果推理;Θ是模型的定量知识表示,用于表达变量之间的概率依赖程度。

从算法的角度看,贝叶斯网络分为结构学习和参数学习两个部分,而参数学习是建立在结构已知的基础之上,因此网络的结构学习是关键。并且,BN的结构学习算法可以分为精确学习算法和近似学习算法。精确学习算法将BN推理和学习问题表述为函数的优化,通过遍历整个搜索空间,可以保证找到全局最优解,但是受限于内存里和运行时间。近似学习算法通过有效元启发式算法对可能解的空间进行搜索来获得良好的解。

贝叶斯的结构学习

完备数据下的BN结构学习:

BN结构学习的主要思想是基于生成数据的样本集合,在推理所得到的若干个贝叶斯网络中,选出一个最符合给定数据集逻辑,拟合效果最好的网络结构。而其难点在于搜索空间会随节点数n的增加呈指数型飞涨。

贝叶斯网络结构的构造方法有两种,一种是通过专家的领域经验手工构造(先验论),另外一种是通过数据分析来获得(后验论)。第一种适用于网络变量较少,且变量之间具有明显的因果关系的网络结构,缺点是具有明显的主观判断,从不同的变量顺序出发会得到不同的网络结构。第二种基于数据挖掘的各种算法来获得和数据集拟合度最高的贝叶斯网络结构,缺点是精确算法无法在有限的时间内找到最优解,近似的启发式搜索方法无法获得最优解。

完备数据下,BN的近似结构学习算法可分为基于独立性检验、基于评分搜索和基于混合搜索三类。

基于独立性检验的结构学习:

独立性检验的方法将BN网络看作表示独立变量关系的网络模型,通过计算结点间的互信息和条件独立性找出各个节点之间的关系来判断网络中边的存在性,最终找到一个符合独立关系的网络结构。其中互信息表示一个变量包含另一个变量信息的程度,条件独立表示一个变量的改变是否会影响另一个变量。

寄语

本章首先介绍了贝叶斯网络的定义,然后初步介绍了贝叶斯网络有那些分支,下面以章将详细的介绍贝叶斯网络结构学习的具体内容。

往期经典再现