简单记录一些经典的文章

1、Attention is All you Need

主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积神经网络。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构，即Transformer，它完全基于注意力机制，完全省去了递归和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上优越，同时更具并行性，并且需要更少的训练时间。我们的模型在WMT 2014英语到德语翻译任务中实现了28.4 BLEU，比现有的最佳结果有所改进，包括超过2个BLEU的合奏。在WMT 2014英法翻译任务中，我们的模型在八个GPU上训练3.5天后，建立了一个新的单一模型最先进的BLEU得分41.8，这只是文献中最佳模型训练成本的一小部分。我们通过将Transformer成功地应用于具有大量和有限训练数据的英语选区解析，表明它可以很好地推广到其他任务。

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

www.semanticscholar.org/paper/Atten…

2、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

我们介绍了一种新的语言表示模型，称为 BERT，即来自 Transformer 的双向编码器表示。与最近的语言表示模型（Peters 等，2018a；Radford 等，2018）不同，BERT 的设计目标是通过在所有层中联合考虑左侧和右侧上下文，从未标记文本中预训练深度双向表示。结果，预训练的 BERT 模型只需一个额外的输出层进行微调，就可以为广泛的任务（如问答和语言推理）创建最先进的模型，而无需进行大量的任务特定架构修改。

BERT 在概念上简单但在实际应用中非常强大。它在十一项自然语言处理任务上取得了新的最先进结果，包括将 GLUE 得分提高到 80.5%（绝对提升 7.7 个百分点），将 MultiNLI 准确率提高到 86.7%（绝对提升 4.6 个百分点），将 SQuAD v1.1 问答测试 F1 提高到 93.2（绝对提升 1.5 个百分点），以及将 SQuAD v2.0 测试 F1 提高到 83.1（绝对提升 5.1 个百分点）。

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

www.semanticscholar.org/paper/BERT%…

3、RoBERTa: A Robustly Optimized BERT Pretraining Approach

语言模型预训练带来了显著的性能提升，但不同方法之间的仔细比较具有挑战性。训练在计算上是昂贵的，通常在不同大小的私人数据集上进行，正如我们将要展示的那样，超参数选择对最终结果有重大影响。我们提出了一项BERT预训练的复制研究（Devlin等人，2019），该研究仔细测量了许多关键超参数和训练数据大小的影响。我们发现BERT的训练严重不足，可以达到或超过之后发布的每个模型的性能。我们最好的模型在GLUE、RACE和SQuAD方面取得了最先进的结果。这些结果突出了以前被忽视的设计选择的重要性，并对最近报道的改进来源提出了疑问。我们发布我们的模型和代码。

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., ... & Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.

www.semanticscholar.org/paper/RoBER…

4、ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

在预训练自然语言表示时，增加模型规模通常会提升下游任务的性能。然而，在某个点上，进一步增加模型规模会因 GPU/TPU 内存限制和更长的训练时间变得更加困难。为了解决这些问题，我们提出了两种参数缩减技术，以降低内存消耗并加快 BERT 的训练速度。综合实验证据表明，我们提出的方法使得模型相比原始 BERT 更好地扩展。此外，我们使用了一种专注于建模句间连贯性的自监督损失，并证明它在处理多句输入的下游任务中持续发挥作用。结果，我们的最佳模型在 GLUE、RACE 和 SQuAD 基准测试上建立了新的最先进结果，同时参数数量少于 BERT-large。代码和预训练模型可在此 HTTPS URL 获得。

Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., & Soricut, R. (2019). Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942.

www.semanticscholar.org/paper/ALBER…

5、DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

随着来自大规模预训练模型的迁移学习在自然语言处理（NLP）中变得越来越普遍，在边缘和/或受限的计算训练或推理预算下操作这些大型模型仍然具有挑战性。在这项工作中，我们提出了一种方法来预训练一个较小的通用语言表示模型，称为DistilBERT，然后可以对其进行微调，使其在广泛的任务中具有良好的性能，就像其较大的对应对象一样。虽然大多数先前的工作都研究了使用蒸馏来构建特定任务模型，但我们在预训练阶段利用了知识蒸馏，并表明可以将BERT模型的大小缩小40%，同时保留97%的语言理解能力，速度加快60%。为了利用大型模型在预训练过程中学习到的归纳偏差，我们引入了一种结合语言建模、提取和余弦距离损失的三重损失。我们更小、更快、更轻的模型预训练更便宜，我们在概念验证实验和设备上比较研究中展示了其设备上计算的能力。

Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.

www.semanticscholar.org/paper/Disti…

6、BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

我们提出了BART，一种用于预训练序列到序列模型的去噪自动编码器。BART是通过（1）用任意噪声函数破坏文本，以及（2）学习模型来重建原始文本来训练的。它使用标准的基于Tranformer的神经机器翻译架构，尽管其简单，但可以被视为推广BERT（由于双向编码器）、GPT（具有左右解码器）和其他最近的预训练方案。我们评估了许多去噪方法，通过随机打乱句子的顺序和使用一种新颖的填充方案来找到最佳性能，其中文本的跨度被单个掩码标记取代。当对文本生成进行微调时，BART特别有效，但也适用于理解任务。它与RoBERTa在GLUE和SQuAD上的性能相匹配，并在一系列抽象对话、问答和摘要任务上取得了最先进的结果，最高可获得3.5 ROUGE。BART还为机器翻译提供了比反翻译系统增加1.1的BLEU，只进行目标语言预训练。我们还复制了BART框架内的其他预训练方案，以了解它们对最终任务性能的影响。

Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., ... & Zettlemoyer, L. (2019). Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv preprint arXiv:1910.13461.

www.semanticscholar.org/paper/BART%…

7、Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

迁移学习是自然语言处理（NLP）中一种强大的技术，它首先在数据丰富的任务上对模型进行预训练，然后在下游任务上进行微调。迁移学习的有效性导致了方法、方法和实践的多样性。在本文中，我们通过引入一个统一的框架来探索NLP的迁移学习技术的前景，该框架将每个语言问题转换为文本到文本的格式。我们的系统研究比较了数十项语言理解任务的预训练目标、架构、未标记数据集、迁移方法和其他因素。通过将我们的探索见解与规模和我们新的“Colossal Clean Crawled Corpus”相结合，我们在许多基准测试上取得了最先进的结果，包括摘要、问答、文本分类等。为了促进NLP迁移学习的未来工作，我们发布了我们的数据集、预先训练的模型和代码。

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, 21(140), 1-67.

www.semanticscholar.org/paper/Explo…

8、DeBERTa: Decoding-enhanced BERT with Disentangled Attention🤎

预训练神经语言模型的最新进展显著提高了许多自然语言处理（NLP）任务的性能。在本文中，我们提出了一种新的模型架构DeBERTa（具有解纠缠注意力的解码增强型BERT），该架构使用两种新技术改进了BERT和RoBERTa模型。第一种是解纠缠注意力机制，其中每个单词使用分别编码其内容和位置的两个向量来表示，并且单词之间的注意力权重使用关于其内容和相对位置的解纠缠矩阵来计算。其次，使用增强的掩码解码器来替换输出softmax层，以预测用于模型预训练的掩码令牌。我们表明，这两种技术显著提高了模型预训练的效率和下游任务的性能。与RoBERTa Large相比，使用一半训练数据训练的DeBERTa模型在广泛的NLP任务中始终表现更好，MNLI提高了+0.9%（90.2%对91.1%），SQuAD v2.0提高了+2.3%（88.4%对90.7%），RACE提高了+3.6%（83.2%对86.8%）。DeBERTa代码和预训练模型将在此https URL上公开。

He, P., Liu, X., Gao, J., & Chen, W. (2020). Deberta: Decoding-enhanced bert with disentangled attention. arXiv preprint arXiv:2006.03654.

www.semanticscholar.org/paper/DeBER…

9、Improving Language Understanding by Generative Pre-Training

自然语言理解包括一系列不同的任务，如文本隐含、问题回答、语义相似性评估和文档分类。尽管大型未标记文本语料库非常丰富，但用于学习这些特定任务的标记数据却很少，这使得经过判别训练的模型很难充分执行。我们证明，通过在不同的未标记文本语料库上生成语言模型的预训练，然后对每个特定任务进行有区别的微调，可以在这些任务上实现巨大的收益。与以前的方法相比，我们在最终调整过程中使用了任务感知输入转换，以实现有效的传输，同时对模型架构的更改最小。我们在广泛的自然语言理解基准上展示了我们的方法的有效性。我们的一般任务不可知模型优于使用专门为每个任务构建的架构的区别训练模型，在所研究的12个任务中，有9个任务显著提高了现有技术水平。例如，我们在常识推理（Stories Cloze Test）、问答（RACE）和文本隐含（MultiNLI）方面分别获得了8.9%、5.7%和1.5%的绝对改进。

Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.

www.semanticscholar.org/paper/Impro…

10、Language Models are Unsupervised Multitask Learners

自然语言处理任务，如问答、机器翻译、阅读理解和摘要，通常在特定任务的数据集上进行监督学习。我们证明，当在一个名为WebText的数百万网页的新数据集上进行训练时，语言模型在没有任何明确监督的情况下开始学习这些任务。当以文档加问题为条件时，在不使用127000+个训练示例的情况下，语言模型生成的答案在CoQA数据集上达到55 F1，匹配或超过4个基线系统中的3个的性能。语言模型的容量对于零样本任务转移的成功至关重要，并且增加它可以以对数接近的方式提高任务间的性能。我们最大的模型GPT-2是一个1.5B参数的Transformer，它在零样本设置下，在8个测试语言建模数据集中的7个上实现了最先进的结果，但仍低于其WebText。模型中的样本反映了这些改进，并包含连贯的文本段落。这些发现为构建语言处理系统提供了一条很有前途的途径，该系统可以从自然发生的演示中学习执行任务。

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.

www.semanticscholar.org/paper/Langu…

11、Language Models are Few-Shot Learners

最近的工作表明，通过对大量文本进行预训练，然后对特定任务进行微调，在许多NLP任务和基准测试方面取得了实质性进展。虽然这种方法在架构上通常与任务无关，但它仍然需要数千或数万个实例的特定任务微调数据集。相比之下，人类通常只能从几个例子或简单的指令中执行一项新的语言任务，而当前的NLP系统在很大程度上仍难以做到这一点。在这里，我们表明，扩大语言模型的规模大大提高了任务不可知的、少镜头的性能，有时甚至与先前最先进的微调方法相比具有竞争力。具体来说，我们训练GPT-3，这是一个具有1750亿个参数的自回归语言模型，比以前的任何非稀疏语言模型都多10倍，并测试其在少数镜头设置中的性能。对于所有任务，GPT-3都是在没有任何梯度更新或微调的情况下应用的，任务和少量镜头演示完全通过与模型的文本交互来指定。GPT-3在许多NLP数据集上实现了强大的性能，包括翻译、问答和完形填空任务，以及一些需要即时推理或领域自适应的任务，如解读单词、在句子中使用新词或执行3位数算术。同时，我们还确定了GPT-3的少量镜头学习仍然很困难的一些数据集，以及GPT-3面临与在大型网络语料库上训练相关的方法论问题的一些数据集中。最后，我们发现GPT-3可以生成新闻文章的样本，而人类评估者很难将其与人类撰写的文章区分开来。我们讨论了这一发现和GPT-3的更广泛的社会影响。

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.

www.semanticscholar.org/paper/Langu…

12、XLNet: Generalized Autoregressive Pretraining for Language Understanding

由于具有对双向上下文建模的能力，与基于自回归语言建模的预训练方法相比，像BERT这样的基于去噪自动编码的预训练获得了更好的性能。然而，依赖于用掩码破坏输入，BERT忽略了掩码位置之间的依赖性，并受到预训练微调差异的影响。鉴于这些优点和缺点，我们提出了XLNet，这是一种广义自回归预训练方法，它（1）通过最大化因子分解顺序的所有排列上的预期似然性来实现双向上下文的学习，（2）由于其自回归公式，克服了BERT的局限性。此外，XLNet将最先进的自回归模型Transformer XL的思想集成到预训练中。从经验上看，XLNet在20项任务上的表现优于BERT，通常相差很大，并在18项任务上取得了最先进的结果，包括问答、自然语言推理、情感分析和文档排名。

Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R. R., & Le, Q. V. (2019). Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems, 32.

www.semanticscholar.org/paper/XLNet…

13、Transformer-XL: Attentive Language Models beyond a Fixed-Length Context

转换器具有学习长期依赖性的潜力，但在语言建模的环境中受到固定长度上下文的限制。我们提出了一种新的神经架构Transformer XL，它能够在不破坏时间连贯性的情况下实现超过固定长度的学习依赖性。它由分段级递归机制和一种新颖的位置编码方案组成。我们的方法不仅能够捕获长期依赖关系，还解决了上下文碎片化问题。因此，Transformer XL学习的依赖性比RNN长80%，比普通Transformers长450%，在短序列和长序列上都获得了更好的性能，并且在评估过程中比普通Transformer快1800+倍。值得注意的是，我们在enwiki8上将bpc/困惑的最新结果提高到0.99，在text8上提高到1.08，在WikiText-103上提高到18.3，在十亿字上提高到21.8，在Penn树库上提高到54.5（无需微调）。当仅在WikiText-103上进行训练时，Transformer XL能够生成具有数千个标记的合理连贯的新颖文本文章。我们的代码、预训练的模型和超参数在Tensorflow和PyTorch中都可用。

Dai, Z., Yang, Z., Yang, Y., Carbonell, J., Le, Q. V., & Salakhutdinov, R. (2019). Transformer-xl: Attentive language models beyond a fixed-length context. arXiv preprint arXiv:1901.02860.

www.semanticscholar.org/paper/Trans…

14、ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

掩码语言建模（MLM）预训练方法（如BERT）通过用[MASK]替换一些令牌来破坏输入，然后训练模型来重建原始令牌。虽然它们在转移到下游NLP任务时会产生良好的结果，但通常需要大量的计算才能有效。作为一种替代方案，我们提出了一种更具样本效率的预训练任务，称为替换令牌检测。我们的方法不是屏蔽输入，而是通过用从小型生成器网络中采样的看似合理的替代品替换一些令牌来破坏输入。然后，我们不是训练一个预测损坏令牌的原始身份的模型，而是训练一个判别模型，该判别模型预测损坏输入中的每个令牌是否被生成器样本替换。彻底的实验表明，这种新的预训练任务比MLM更有效，因为该任务是在所有输入令牌上定义的，而不仅仅是被屏蔽的子集。因此，在给定相同的模型大小、数据和计算的情况下，我们的方法所学习的上下文表示大大优于BERT所学习的。小型车型的收益尤其强劲；例如，我们在一个GPU上训练一个模型4天，该模型在GLUE自然语言理解基准上的性能优于GPT（使用30倍以上的计算进行训练）。我们的方法在规模上也能很好地工作，在使用不到其计算量1/4的情况下，其性能与RoBERTa和XLNet相当，在使用相同计算量的情况下优于它们。

Clark, K., Luong, M. T., Le, Q. V., & Manning, C. D. (2020). Electra: Pre-training text encoders as discriminators rather than generators. arXiv preprint arXiv:2003.10555.

arxiv.org/abs/2003.10…

15、Longformer: The Long-Document Transformer

基于Transformer的模型由于其自注意操作而无法处理长序列，该自注意操作随序列长度的二次方变化。为了解决这一限制，我们引入了具有注意力机制的Longformer，该机制随序列长度线性扩展，使处理数千个或更长令牌的文档变得容易。Longformer的注意力机制是标准自我注意力的一种替代机制，它将局部窗口注意力与任务驱动的全局注意力相结合。继之前关于长序列转换器的工作之后，我们在字符级语言建模上对Longformer进行了评估，并在text8和enwik8上获得了最先进的结果。与之前的大多数工作相比，我们还对Longformer进行了预训练，并在各种下游任务中对其进行了微调。我们经过预训练的Longformer在长文档任务上始终优于RoBERTa，并在WikiHop和TriviaQA上创造了最先进的新结果。最后，我们介绍了Longformer编码器-解码器（LED），这是一种支持长文档生成序列到序列任务的Longformer变体，并在arXiv摘要数据集上证明了其有效性。

Beltagy, I., Peters, M. E., & Cohan, A. (2020). Longformer: The long-document transformer. arXiv preprint arXiv:2004.05150.

www.semanticscholar.org/paper/Longf…

16、Learning Transferable Visual Models From Natural Language Supervision

训练现有技术的计算机视觉系统来预测一组固定的预定对象类别。这种受限的监督形式限制了它们的通用性和可用性，因为需要额外的标记数据来指定任何其他视觉概念。直接从图像的原始文本中学习是一种很有前途的选择，它利用了更广泛的监督来源。我们证明，在从互联网上收集的4亿对（图像、文本）的数据集上，预测哪一个字幕与哪一幅图像一起使用的简单预训练任务是从头开始学习SOTA图像表示的一种有效且可扩展的方法。在预先训练之后，使用自然语言来参考学习到的视觉概念（或描述新概念），从而使模型能够零样本转移到下游任务。我们通过在30多个不同的现有计算机视觉数据集上进行基准测试来研究这种方法的性能，这些数据集涵盖了OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务。该模型不平凡地转移到大多数任务，并且在不需要任何数据集特定训练的情况下，通常与完全监督的基线具有竞争力。例如，我们在ImageNet零样本上匹配原始ResNet-50的精度，而无需使用它所训练的128万个训练示例中的任何一个。我们在github.com/OpenAI/CLIP.

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International conference on machine learning (pp. 8748-8763). PMLR.

www.semanticscholar.org/paper/Learn…

自然语言处理经典文章简录16篇