【Prompt系列】(五) [论文分享] KPT:知识图谱赋能,Verbalizer也可以更聪明一点

1,117 阅读4分钟

这是我参与2022首次更文挑战的第27天,活动详情查看:2022首次更文挑战

本文是【Prompt系列】的第五篇。前面几期中,我分别介绍了 AutoPrompt、Null Prompts 和 Pre-trained Prompt Tuning,这些都是 prompt 模板设计方面的工作,本期分享的这篇 Knowledgeable Prompt-tuning 则着力于 Answer Mapping,探索 verbalizer 的设计,来自清华刘知远老师组。

本文于 2021 年 8 月初上传至 arXiv,第一作者 Shengding Hu 来自清华大学。
原文链接:Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification

Motivation

过去 verbalizer 由人工设计或通过梯度下降搜索,可能覆盖不全,结果偏差大且效果方差大。比如模型预测出的 [MASK] 为 Physics,但分类标签中没有细分领域,只有 SCIENCE 是正确结果。作者希望引入外部知识来构建 verbalizer,比如把上面例子的 verbalizer 扩展为 {science,physics} → SCIENCE,预测的准确率就会高很多。

Related Works

之前也有一些工作聚焦 Answer Mapping,比如利用梯度下降进行自动 verbalizer 搜索,但是这些工作的优化需要充分的训练集和测试集,而且只能在近义词方面有不错的表现;与此同时,这些作者也尝试过为每一个 class label 制作一个 label words 集合,但是单个 class label 的标签词集合非常小,往往不超过 10 个,本文能够为每一个类标签产生超过 100 个标签词。

Method

作者通过 3 个步骤为 verbalizer 引入外部知识:construction、refinement 和 utilization。首先利用外部知识库为每个标签生成一组标签词,不仅仅包含同义词,而是涵盖了不同的粒度和视角;然后还提出了一种上下文化的校准方法,用 PLM 来给上一步中生成的扩展标签进行降噪;最后,用普通平均或者加权平均 loss 将 PLM 的预测结果映射到类标签。

Construction

以 topic classification 为例,作者利用 Related Words(一个聚合 ConceptNet、WordNet 等多个知识库的知识图谱),效果如图:

image.png

作者将类标签作为锚点,获取其在知识图谱中的临近结点,临近结点为相关性超过一定阈值的结点。

Refinement

对于 zero-shot learning,主要有三个问题:

  • out-of-vocabulary (OOV):KB 推荐的标签词有可能不在 PLM 的词汇表中,但这些词也可能是预测结果,不该被完全排除。作者直接把这些词拆分成 token,用 PLM 计算这些 tokens 被填入 [MASK] 的平均概率作为这些词出现的概率。
  • 稀有词预测概率低,结果可能不准确。作者用一种标签词的上下文先验来代替词频字典,把预测概率低于阈值的词去掉。
  • 各个标签词的先验概率差异极大,导致有些词相比于其它词很难被预测。作者使用上文提到的上下文先验对概率分布进行了一个校准来解决这个问题,即用 PLM 预测概率除以标签词的先验分布概率。

对于 few-shot learning,Refinement 简单很多,作者为每一个标签词赋了一个权重来学习。

Utilization

few-shot 设定下,因为已经学习了一个权重,所以就用权重来计算每个标签词概率的加权平均,作为类标签的得分,zero-shot 设定下,因为没有权重,所以默认每个标签词贡献均等,直接求平均。

Experiments

Comparing with Baseline

作者用 RoBERTa(large) 作为 PLM,针对每个数据集都用了四个手工设计的 prompt 模板。

Zero-shot Experiments: 作者对比了 PT、PT+CC (Contextualized Calibration) 和 KPT 与 baseline 的表现。结果如下:

image.png

Few-shot Experiments: 作者做了 5/10/20-shot 实验,每个实验都用不同的随机种子做了 5 遍,因为有了小样本,所以作者在对比效果的时候还加进来了 Fine-tuning。结果如下:

image.png

Ablation studies

作者首先针对 Contextualized Calibration 做了消融实验,在 Zero-shot 实验下,CC 的效果比 Domain Conditional PMI (Holtzman等人2021年的工作)好很多;但在 Few-shot 下,CC 的作用可以忽略不计,这与作者的预期相同,因为少样本学习的权重可以对标签词的概率分布进行调控。

此外,作者还引入了一个 case study,展示了 KPT 生成跨粒度标签词的能力,以类标签POLITICS 和 SPORTS 为例:

image.png

Summary

作者提出了一种用外部知识库扩充 verbalizer 的方法 KPT,在 zero-shot 和 few-shot 下都展示出了良好的潜力。将 KB 引入 prompt tuning 是一种不错的思路,这种思路还可以沿用到其它任务中,比如文本生成。