大模型面经（1）文本生成的几大预训练任务：文本生成模型的预训练通常依赖于一系列精心设计的任务，旨在让模型学习语言的基础

文本生成的几大预训练任务：
文本生成模型的预训练通常依赖于一系列精心设计的任务，旨在让模型学习语言的基础结构、语义及上下文关联等关键信息。以下是几种常见的预训练任务类型：
1. Masked Language Modeling (MLM): 这是BERT模型所采用的一种方法，其核心思想是在输入序列中随机遮蔽一些单词（或token），然后要求模型预测这些被遮蔽掉的单词是什么。通过这种方式，模型可以学习到词语之间的上下文关系。
2. Causal Language Modeling (CLM): 与MLM不同，因果语言建模主要用于像GPT系列这样的自回归模型上。在这种设置下，给定一个序列作为输入，模型需要预测下一个token会是什么。整个过程是从左至右依次进行预测的，因此它强调了对序列前后顺序的理解。
3. Next Sentence Prediction (NSP): BERT引入了这个额外的任务来帮助模型理解句子间的关系。具体来说，在预训练阶段，系统会随机选择两个句子，并标记它们是否连续出现在原文档中；模型的任务就是判断第二个句子是否真的紧跟第一个句子之后出现。
4. Sentence Order Prediction (SOP): 这是对NSP的一种改进版本，特别是在RoBERTa等后续模型中使用得更多。不同于简单地判断两句话是否相邻，SOP要求模型识别出一组打乱顺序后的句子原本正确的排列方式，从而增强了对于长距离依赖关系的学习能力。
5. Electra的替换词检测: Electra提出了一种新的预训练策略——生成器-判别器框架。其中，一个小得多的生成器首先尝试填补输入中的[mask]位置；接着，判别器负责区分哪些token是由生成器产生的而不是原始文本的一部分。这种方法能够以更低的成本实现高质量的预训练效果。
6. Span Masking: SpanBERT扩展了传统的MLM概念，不仅仅掩盖单个词汇，而是随机选择一定长度范围内的连续tokens作为span来进行mask处理。这有助于提高模型在理解更复杂语法结构方面的能力。