这是我参与2022首次更文挑战的第25天,活动详情查看:2022首次更文挑战
本文是【Prompt系列】的第四篇。前两期中,我分享了 AutoPrompt 和 Null Prompts 两篇探究 prompt 设计方法的经典工作,今天这篇 Pre-trained Prompt Tuning,既有设计思路的探索(hybrid prompt),又有训练策略的创新(prompt 预训练),是清华 CoAI 和 清华 NLP 等知名团队的作品。
本文于 2021 年 9 月上传至 arXiv,共同第一作者 Yuxian Gu 与 Xu Han 来自清华大学。
原文链接:PPT: Pre-trained Prompt Tuning for Few-shot Learning
Motivation
数据充足的情况下,prompt tuning 和传统的 fine-tuning 效果差不多,但是在 few-shot 情况下,prompt 的效果要差很多。
作者认为这归因于 soft prompt 的初始化,因此,作者尝试在预训练阶段加入 soft prompt,以获得更好的初始化。这就是 Pre-trained Prompt Tuning (PPT)。
Pilot Experiments
作者做了几个关于 prompt tuning 的试点实验:
1. 混合 prompt tuning ( hard+soft)
作者将 soft prompt 和 3 个人工设计的 hard prompt、2 个自动生成的 hard prompt 相结合。P 是 soft prompt,s 是输入语句。结果如下:
该方法有益于 prompt tuning,但是效果依然不如 fine-tuning。
2. Verbalizer 选择
如上图,作者对比了同一个 prompt 模板下不同 verbalizer 的效果,发现verbalizer 的选择影响很大。一般来说,解释对应标签含义的词效果更好。
3. 使用词嵌入初始化 soft prompt 标记
作者尝试了四种初始化策略,这些策略在以前的工作中得到了验证,被证明在小型模型中是有效的。但是作者尝试了在具有 11B 参数的模型中使用具体词的嵌入来初始化 soft prompt 标记,作用很小甚至为负。
此外,上面三种方法都不能很好地解决 few-shot 的情况下的 prompt tuning 问题。
Method
(挖个坑,稍后填)
Experiments
作者在每个数据集上使用32个训练样本和32个验证样本进行实验。分类任务结果如下:
主要有以下几个结论:
- fine-tuning 之间的对比:模型越大,fine-tuning 的效果越好。这说明 few-shot 情况下大模型还是更有优势的。
- prompt-tuning 之间的对比:大部分数据集下,PPT 明显优于 Vanilla PT 和 LM Adaption,而在简单地将 PPT 和 hard prompt 结合之后(即 Hybrid PPT),几乎在所有数据集中都取得了最好的效果。这说明预训练 prompt 和混合 prompt 可能是互补的。
- PPT 与 fine-tuning 的对比:PPT 在大多数英文数据集和所有中文数据集下都由于 fine-tuning,这说明 PPT 比 fine-tuning 更能够弥合 MLM 与下游任务之间的差异。
- prompt-tuning 效果的方差对比:few-shot 情况下,各家 prompt-tuning 在不同数据集上的表现非常不稳定,而 PPT 在所有数据集上的表现方差显著减小。
- 未完待续...