半监督学习的混合加权最近邻分类器解析

3 阅读1分钟

半监督学习的混合加权最近邻分类器

Stephen M. S. Lee, Mehdi Soleymani; 26(218):1−46, 2025.

摘要

提出了一种新颖的混合方法,用于为半监督学习构建随机加权的最近邻分类器。该方法首先使用标记的学习集来预测未标记学习集的类别标签概率分布。这将未标记集转化为伪标记集,可以在其上训练顺序加权的最近邻分类器。然后,将此顺序加权最近邻分类器计算的投票比例与仅基于标记集训练的标准加权最近邻分类器的结果进行线性组合,以构建混合分类器。理论表明,给定足够大的未标记数据集,混合分类器具有最优的遗憾值,其收敛速度比最优加权最近邻分类器更快,因此也优于最优的装袋或k-最近邻分类器。同时表明,混合分类器可以通过一种“去标记”策略进行修正,以实现最快的可能遗憾收敛速度,而无论未标记集的大小如何,甚至该集合可以为空。提供了仿真研究和真实数据示例,以支持理论发现,并说明了使用均匀权重构建的混合分类器的实证性能。还探讨了通过假设的类别概率进行伪标记的效果,作为主要发现的补充。

[abs][pdf][bib]