持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第5天，点击查看活动详情

导语

本文对应原论文的第3章的部分内容。主要介绍了目前NLP领域关于预训练语言模型的发展综述。

3 预训练语言模型

在本章中，我们对各种预训练语言模型（PLM）提出了一个系统的观点，(i)以更系统的方式沿着各种轴组织它们，(ii)特别关注提示方法的突出方面。下面，我们将通过主要训练目标、文本噪声类型、辅助训练目标、注意力掩码、典型架构和首选应用场景来详细介绍它们。

下表总结了一些常见的PLM的对比情况。

3.1 训练目标

预训练语言模型的主要训练目标几乎总是由某种客观预测文本x的概率组成。

Standard Language Model (SLM)

SLM目标以自回归的方式进行预测，每次预测序列中的一个标记。通常从左到右执行，但也可以按其他顺序执行。

标准语言模型目标的一个流行替代方案是去噪目标，它将一些噪声函数应用于输入句子 $\widetilde{x} = f_{noise}(x)$ ，然后考虑到这个噪声文本 $P(x|\widetilde{x})$ ，尝试预测原始输入 $x$ 句子。这些目标有两种常见的风格。

Corrupted Text Reconstruction (CTR)

这些目标通过计算输入句子中噪声部分的损失，将处理过的文本恢复到其未损坏的状态。

Full Text Reconstruction (FTR)

这些目标通过计算整个输入文本的损失来重建文本，无论是否有噪声。

预训练语言模型的主要训练目标在决定其对特定提示任务的适用性方面起着重要作用。例如，从左到右的自回归语言模型可能特别适合于前缀提示（preﬁx prompts），而重建目标可能更适合完形提示（cloze prompts）。此外，用标准的LM和FTR目标训练的模型可能更适合于关于文本生成的任务，而其他任务，如分类，可以使用用这些目标中的任何一个训练的模型来制定。

除了上述主要训练目标外，研究者还设计了一些辅助目标，以进一步提高模型执行某些种类的下游任务的能力。

3.2 噪声函数

在基于重构的训练目标中，用于获取噪声文本的损坏类型对学习算法的有效性有影响。此外，可以通过控制噪声的类型来纳入先验知识，例如，噪声可以集中在句子的实体上，这允许我们学习一个预训练的模型，对实体的预测性能特别高。下面我们将介绍几种噪声函数，具体示例见表4。

其中主要的噪声类型归纳如下：

掩码。文本将在不同级别上进行掩码，用特殊标记(如[MASK])替换一个标记或多个标记跨度。值得注意的是，掩码可以是从某些分布中随机产生的，也可以是专门设计来引入先验知识的，例如上述遮盖实体的例子，以鼓励模型擅长预测实体。
替换。替换类似于掩码，不同的是标记或多标记跨度不是用[MASK]替换，而是用另一个token或信息(例如图像区域(Su等人，2020))。
删除。将从文本中删除标记或多标记片段，而不添加[MASK]或任何其他标记。该操作通常与FTR损失一起使用。
排列。首先将文本划分为不同的片段(标记、子句片段或句子)，然后将这些片段排列为新文本。

3.3 表示的方向性

在理解预训练语言模型以及它们之间的差异时，应该考虑的最后一个重要因素是表示计算的方向性。一般来说，有两种广泛使用的方法来计算这种表示形式。

Left to Right

从左到右每个单词的表示是基于单词本身和句子中之前的所有单词计算的。例如，如果我们有一个句子“This is a good movie”，单词“good”的表示将根据之前的单词计算。在计算标准LM目标或计算FTR目标的输出端时，这种因子分解特别广泛，我们将在下文详细讨论。

Bidirectional

每个单词的表示是基于句子中的所有单词计算的，包括当前单词左边的单词。在上面的例子中，good会受到句子中所有单词的影响，甚至包括下面的movie。

除了上述两个最常见的方向外，还可以在单个模型中混合两种策略，或以随机排列顺序对表示进行条件反射，尽管这些策略应用较少。值得注意的是，当在神经模型中实施这些策略时，这种条件作用通常是通过注意力掩盖来实现的，它掩盖了注意力模型中的值，如流行的Transformer架构。图2显示了这种注意力掩码的一些示例。

3.4 典型的预训练方法

考虑到上述概念，本文介绍了四种流行的预训练方法，它们是由目标、噪声函数和方向性的不同组合产生的。这些描述如下，并总结在图3和表5。

3.4.1 Left-to-Right Language Model

左到右语言模型(L2R语言模型)是一种自回归（autoregreesive）语言模型，用于预测即将到来的单词或将概率P(x)分配给单词序列 $x = x_1，···，x_n$ 。概率通常使用链式法则按从左到右的方式进行分解: $P(x) = P(x_1) \times ··· P(x_n | x_1···x_{n−1})$ 。

代表性的模型如GPT-3，GPT-Neo等。这类模型是许多Prompt方法喜欢采用的模型，一个重要的原因是这一类模型都比较大，一般不对外公开，因此，在预训练和微调方案中使用这些模型通常是不可能的。

3.4.2 Masked Language Models

自回归模型可以很好的建模文本概率，然而其缺点是它只能从左到右计算表示。当面对一些诸如分类的下游任务时，其表现就不如双向的目标函数模型要好。例如，使用遮罩语言模型（masked language model，MLM）建模的方法如BERT旨在基于周围的上下文预测被mask掉的token。具体来说，使用 $P(x_i | x_1, \cdots, x_{i-1}, x_{i+1}, \cdots, x_n)$ 来建模文本的概率。

代表性的模型如BERT，ERNIE等。这一类模型对于自然语言理解或者分析任务来说非常合适，并且很容易将这些任务转化为完形填空问题。除此之外，MLM模型也是将Prompt和Fine-tune结合时一个不错的选择。

3.4.3 Preﬁx and Encoder-Decoder

对于受限的条件文本生成任务例如机器翻译或者总结，输入是 $x = x_1，···，x_n$ 目标是输出一段文本 $y$ 。我们需要一种PLM，它既能编码输入又能产生输出文本。对于这样的目的，主要有两种流行的结构，他们都利用以下的步骤： (1)使用具有全连接掩码的编码器首先对源x进行编码，然后 (2)对目标y进行自回归解码(从左到右)。

Preﬁx Language Model Prefix LM是一个从左到右的LM，它以带有前缀的序列x为条件来解码y，该序列由相同的模型参数编码，但具有全连接掩码。值得注意的是，为了鼓励Prefix LM学习更好的输入表示，除了在y上应用标准的条件语言建模目标外，通常还在x上应用损坏的文本重建目标。

Encoder-decoder 编码器-解码器模型是一个使用从左到右的LM来解码y的模型，该模型以具有全连接掩码的文本x的单独编码器为条件;编码器和解码器的参数不是共享的。与前缀LM类似，可以将不同类型的噪声应用于输入x。

代表性的Prefix LM如和UniLM 1-2和ERNIE-M，而Encoder-decoder模型广泛用于预训练模型，如T5、BART、MASS及其变体。

具有Prefix LM和Encoder-decoder范式的预训练模型可以自然地用于文本生成任务，无论有或没有使用输入文本提示。然而，最近的研究表明，其他非生成任务，如信息提取、问题回答和文本生成评估，可以通过提供适当的提示来重新构成生成问题。因此，提示方法(i)扩大了这些面向生成的预训练模型的适用性。例如，像BART这样的预训练模型在NER中较少使用，而提示方法使BART适用，并且(ii)打破了不同任务之间统一建模的难度。

Prompt学习笔记（三）Pre-train, Prompt, and Predict论文阅读3：预训练语言模型概述

导语