这是我参与2022首次更文挑战的第23天,活动详情查看:2022首次更文挑战
这篇文章记录三个预训练任务:DEA、NSP和RTD,前一篇文章自然语言处理中的预训练任务1记录了LM、MLM和PLM三个预训练任务。
一、DAE(降噪编码器,Denoising Autoencoder)
DAE在文献《Extracting and composing robust features with denoising》 最早被提出,它接收部分被破环是输入,然后训练重构出原始没有被破坏的输入。由于通过将破损数据与非破损数据对比,训练出来的特征噪声比较小,而且破损数据在一定程度上降低了训练数据和测试数据之间的差距,这样被训练出来的特征会更加鲁棒。
有以下几种方法可以破环输入:Token Masking、Token Deletion、Text Infilling、Sentence Permutation和Document Rotation
损失函数如下:
二、NSP (下一个句子预测,Next Sentence Prediction)
NSP任务中,当选择句子A和B作为预训练样本时,B有50%的可能是A的下一个句子,也有50%的可能是来自语料库的随机句子。在Bert模型中,使用NSP任务去学习句子级别的信息。当在之后RoBerTa和SpanBert模型的实验中证实了NSP任务设计的有问题,去掉这个任务会更好一些。
损失函数如下:
三、RTD(替换token检测,Replaced Token Detection)
RTD任务中,使用一个生成器预测出输入中被【mask】的token,然后使用预测出来的token替代这个句子中对应被【mask】的token,再使用一个判别器区分这个句子中的每个token是原始的token还是被替换后的token。
损失函数如下: