第二十五天:半监督学习(SSL)

15 阅读2分钟

如何快速掌握一个行业?100个关键词就够了,跟我来一起学习吧:一天一个关键词-AIGC-100天

半监督学习(Semi-Supervised Learning,SSL)是机器学习的一个分支,它在训练时使用了少量的有标签数据(Labeled data)和大量的无标签数据(Unlabeled data) 。 半监督学习介于无监督学习(训练数据全部无标签)和有监督学习(训练数据全部有标签)之间。

在半监督学习中,通常情况下未标记数据数量远大于标记数据。这种情况下,半监督学习分为两种类型:

  1. Transductive Learning(直推式学习) :在这种情况下,未标记数据就是测试数据,即模型在训练时知道测试集的未标记样本。
  2. Inductive Learning(归纳式学习) :这种情况下,未标记数据并不是测试数据,即模型在训练时不知道测试集的未标记样本。

半监督学习的原理可以简单概括为以下步骤:

  1. 使用少量有标记样本进行监督学习,构建初始的监督模型。
  2. 根据未标记样本与有标记样本的相似性或关联性,对未标记样本进行预测。
  3. 将预测结果对有标记样本进行扩充,并重新训练模型。
  4. 重复以上步骤,直到所有未标记样本都被标记或达到停止条件。

半监督学习的发展历程包括了自我训练、直推式学习等方法,并逐渐在文本等领域得到应用。常见的半监督学习算法包括self-training、生成式半监督模型、基于图的算法等。然而,在实际应用中,半监督学习仍然面临一些问题,如无标签样本的有效利用、大量无标签样本的高效使用等。