生成式AI革新极端多标签分类技术

4 阅读5分钟

对于多年来,某中心的研究人员一直在探索极端多标签分类这一主题,即在可能的分类类别空间巨大(例如数百万个标签)时对输入进行分类。在此过程中,已经多次推动了该领域的技术发展。

但之前的工作属于经典分类问题的范畴,其中模型为空间中的每个标签计算一个概率。在一篇新论文中,该研究团队在计算语言学协会欧洲分会会议上提出了一个新方法:将XMC视为一个生成式问题,对于每个输入的词序列,模型生成一个标签输出序列。这使得团队能够利用大型语言模型的力量来处理XMC任务。

然而,在此设置下,与经典设置一样,困难在于XMC标签空间中的大多数标签属于“长尾”部分,在训练数据中只有很少的代表性示例。过去的工作通过将标签空间组织成层次结构来解决这个问题:首先对输入进行粗分类,然后通过连续细化分类遍历层次树,最终到达一个语义相关概念的簇。这有助于模型从相关但标签不同的示例中学习通用的分类原则,同时也降低了模型完全错误分类的可能性。

在论文中,团队采用了类似的方法,使用一个辅助网络将标签分组为簇,并利用簇信息来指导生成式模型的输出。在训练过程中,实验了两种不同的提供这种指导的方式。一种是将指示哪些簇适用于文本输入的比特向量直接馈送到生成式模型中。另一种是基于多任务目标对模型进行微调:模型学习从簇名称预测标签,以及从文本预测簇名称。

在测试中,将这两种方法与最先进的XMC分类器以及在没有标签簇优势的情况下仅针对分类任务微调的生成式模型进行了比较。总体而言,带有聚类功能的生成式模型优于传统分类器。在八项实验中的六项中,至少一种类型的簇引导模型在整个数据集上匹配或改进了基线生成式模型的性能。在对长尾(稀有)标签的六项实验中,至少有一种簇引导模型优于生成式基线。

架构

考虑模型接收文档(例如维基百科条目)作为输入,并输出一组表征其内容标签的任务。为了微调生成式模型,使用了包含样本文本和人工标注者应用的标签的数据集。

作为基线生成式模型,使用了T5语言模型。BERT是仅编码器语言模型,GPT-3是仅解码器语言模型,而T5是编码器-解码器模型,这意味着它使用双向而非单向编码:当预测标签时,它可以访问整个输入序列。这使其非常适合我们的设置,其中标签的顺序不如其准确性重要,并且希望标签能最好地表征整个文档,而不仅仅是其子部分。

为了创建标签簇,使用预训练模型为训练集中每个文档的单词生成嵌入——即将它们映射到一个表示空间,其中邻近性表示语义相似性。给定标签的嵌入则是包含该标签的所有文档嵌入的平均值。一旦标签被嵌入,便使用k-means聚类将它们组织成簇。

在考虑的第一种架构(称为XLGen-BCL)中,给定文档的真实标签簇在比特数组中表示为1;所有其他簇表示为0。在训练期间,数组作为额外输入传递给模型,但在推理时,模型仅接收文本。

在另一种架构XLGen-MCG中,簇被分配了编号。模型在多任务目标上进行训练,同时学习将簇编号映射到标签以及将文本映射到簇编号。在推理时,模型仅接收文本。首先,它为文本分配一组簇编号,然后将簇编号映射到标签。

实验

使用四个数据集评估了两种簇引导生成式模型和四种基线模型,并在每个数据集上评估了整体性能和对稀有(长尾)标签的性能。在评估整体性能时,使用了F1分数(综合考虑假阳性和假阴性),并使用两种不同的方法对每个标签的F1分数进行平均。宏平均简单地平均所有标签的F1分数。微平均汇总所有标签的所有真阳性、假阳性和假阴性,并计算全局F1分数。

在评估长尾标签的性能时,考虑了在训练数据中仅出现一次或未出现的标签。

还进行了一组使用正样本和未标记数据的实验。也就是说,对于每个训练示例,移除了一半的真实标签。由于从一个示例中移除的标签可能仍然出现在不同的示例中,因此它仍然可以作为输出标签出现。该实验因此评估了模型在标签间的泛化能力。

在PU数据上,生成式模型显著优于传统分类器,并且XLGen-MCG模型明显优于生成式基线。