机器学习-半监督学习

98 阅读5分钟

13.1 未标记样本

  • 我们可以用标记样本集 先训练一个模型,拿这个模型去地里挑一个瓜,询问瓜农好不好,然后把这个新获得的有标记样本加入 中重新训练一个模型,再去挑瓜,这样,若每次都挑出对改善模型性能帮助大的瓜,则只需询问瓜农比较少的瓜就能构建出比较强的模型,从而大幅降低标记成本、这样的学习方式称为“主动学习”,其目标是使用尽量少的“查询”来获得尽量好的性能.

  • 未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独立同分布采样而来,则它们所包含的关于数据分布的信息对建立模型将大有神益,下图给出了一个直观的例示。若仅基于图中的一个正例和一个反例,则由于待判别样本恰位于两者正中间,大体上只能随机猜测;若能观察到图中的未标记样本,则将很有把握地判别为正例.

image.png

  • 让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习

  • 半监督学习可进一步划分为纯半监督学习和直推学习,前者假定训练数据中的未标记样本并非待预测的数据,而后者则假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些 未标记样本上获得最优泛化性能。换言之,纯半监督学习是基于“开放世界” 假设,希望学得模型能适用于训练过程中未观察到的数据;而直推学习是基 于“封闭世界”假设,仅试图对学习过程中规察到的未标记数据进行预测。

image.png

13.2 生成式方法

  • 生成式方法是直接基于生成式模型的方法,此类方法假设所有数据(无论是否有标记)都是由同一个潜在的模型“生成”的、这个假设使得我们能通过潜在模型的参数将未标记数据与学习日标联系起来,而未标记数据的标记则可看作模型的缺失参数,通常可基于EM算法进行极大似然估计求解

13.3 半监督SVM

  • 半监督支持向量机(简称 S3VM)是支持向量机在半监督学习上的推广,在不考虑未标记样本时,支 持向量机试图找到最大间隔划分超平面,而在考虑未标记样本后,S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面,这里的基本假设是“低密度分隔”,显然,这是聚类假设在考虑了线性超平面划分后的推广

image.png

13.4 图半监督学习

  • 给定一个数据集,我们可将其映射为一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间 存在一条边,边的“强度”正比于样本之间的相似度(或相关性)。我们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点尚未染色。于是,半监督学习就对应于“颜色”在图上扩散或传播的过程,由于一个图对应了一个矩阵,这就使得我们能基于矩阵运算来进行半监督学习算法的推导与分析

13.5 基于分歧的方法

  • 与生成式方法、半监督 SVM、图半监督学习等基于单学习器利用未标记数据不同,基于分歧的方法使用多学习器,而学习器之间的“分歧”对未标记数据的利用至关重要

  • “协同训练”是此类方法的重要代表,它最初是针对“多视图”数据设计的,因此也被看作“多视图学习”的代表

  • 在不少现实应用中,一个数据对象往往同时拥有多个“属性集”,每个属性集就构成了一个“视图”。一个电影片段可表示为样本image.png ,其中 image.png是样本在视图 i 中的示例,即基于该视图属性描述而得的属性向量,不妨假定 image.png 为图像视图中的属性向量,image.png 为声音视图中的属性向量;y 是标记,假定是电影的类型,例如“动作片”、“爱情片”等,image.png 这样的数据就是多视图数据

  • 若两个视图充分且条件独立,则可利用未标记样本通过协同训练将弱分类器的泛化性能提升到任意高。不过,视图的条件独立性在现实任务中通常很难满足,因此性能提升幅度不会那么大,但研究表明,即便在更弱的条件下, 协同训练仍可有效地提升弱分类器的性能。

13.6 半监督聚类

  • 聚类是一种典型的无监督学习任务,然而在现实案类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类来利用监督信息以获得更好的聚类效果.

  • 聚类任务中获得的监督信息大致有两种类型,

  • 第一种是“必连”与“勿连”约束,前者是指样本必属于同一个簇,后者是指样本必不属于同一个簇;

  • 第二种是少量的有标记样本