直播回顾 | 生成式大语言模型系列直播第三期——预训练基础：编码模型由东北大学自然语言处理实验室主办、小牛雅智、小牛翻译

由东北大学自然语言处理实验室主办、小牛雅智、小牛翻译协办的小牛翻译直播间（NiuTrans Talk），于5月25日成功举办，我们荣幸地邀请到了来自东北大学自然语言处理实验室的穆永誉博士作为嘉宾，为广大关注大语言模型的朋友们带来了生成式大语言模型技术分享系列的第三期报告——《预训练基础：编码模型》

目前备受关注的ChatGPT等大语言模型，离不开基于Transformer的预训练模型。预训练技术是优秀AI产品的基石，同时也是2018年以来NLP领域的研究热点。在本次的报告中，穆永誉博士主要介绍了采用编码思想的预训练模型及相关内容。在内容讲解上，穆永誉博士首先概述了预训练的相关概念，包括预训练的定义及优势；接下来，详细介绍预训练发展的脉络图，帮助初学者了解预训练从何时何处而来；最后，以语言编码类预训练模型为例，讲解了语言编码的实质，对预训练思想和整体流程深入剖析，并展望了其未来的发展趋势。

在报告后的Q&A环节，穆永誉博士与各平台的网友就大模型相关技术提问进行了广泛讨论，进一步加强了对该类大语言模型的认知，以下是本环节的问题和解答：

Q1：预训练的优势和劣势有哪些？

A1：实际上我们前面介绍了它的主要优势，就是我能够利用一个广泛的无标注数据，比如说TB级别的一个文本量，然后去训练一个通用的模型。而且这个模型它的规模也是很大的。就是它可以达到一个千亿级别的这样的一个参数量，那它的劣势其实也很明显，因为你训了这么大的模型，这个模型它首先它的训练代价造价就很高。第二个就是我们用它做各种下游任务推断的时候，它的成本也不低。可能比如上千亿参数量这样的模型，送给它一段文本数据，让它做一个推断的话，它可能都要动用一个服务器集群来进行一个推断。因此，它的优势和劣势还挺明显的。

Q2：除了BERT，还有哪些以编码类训练模型为代表的方法

A2：比如说我们前面给大家介绍的Bart的一系列模型，我觉得Bart 其实是在BERT基础上，它又多做了一些预训练的一些知识的融合，或者说它设计了更加全面的一些预训练任务。可能增加了一些额外的噪声，让模型去还原，并且Bart这个模型它还能用于一些生成类任务。所以说Bart还是挺受欢迎，当然BERT还是基本是语言编码类经典模型的老大哥了。

Q3：编码类预训练模型的推断过程是怎么样的

A3：编码类预训练模型推断过程，实际上就是如我们前面所介绍的，编码类预练预训练模型。它在预训练阶段主要去学习一个文本特征提取的能力。因此它放到下游任务阶段，或者说推断阶段，我给预训练模型一个文本，然后让它去加工计算得到一个文本特征或者叫文本表示，然后送给后面的比如输出层等，从而完成一个预测。

Q4：BERT模型在预训练阶段的掩盖语言模型任务中，如何确定哪些词会被覆盖？

A4：实际上BERT原文对这方面的设计是一个随机的掩盖。也就是说随机地去掩盖百分之十五的token数量。大概是这样，是不是能够针对一些更有价值的token进行一个关键的掩码，这个可能还有待回答。

Q5：BERT 为什么会选择Transformer 作为基础的架构呢？

A5：因为Transformer在17年提出来之后，基本上在很多下游任务上表现都很不错。而且前面给大家介绍了一下 Transformer encoder，它由于self attention 这种优秀的结构设计，具有一个很好的文本编码能力的。同时，相较于循环神经网络，比如说RNN它的时间复杂度也是更低的。所以说可能谷歌的研究员更倾向于使用Transformer作为一个预训练基础架构。

Q6：自监督预训练在监督数据量足够大的情况下还有效吗？

A6：这个问题问得也很好，其实对于语言编码类的预训练模型来说，它相较于语言生成类预训练模型。可能它的模型规模或者说模型体积，还有训练语料量还是相对来说小一点。这个时候我们发现当把这种语言编码的预训练模型运用到一些NLP领域有监督数据或者说带标注数据非常多的一个任务上。比如神经机器翻译任务上，它在富资源语言翻译上的带来的性能提升就不那么明显。就可能说当我们使用编码类预训练模型去做一个中英这种NMT模型的一个知识增强的话，它的效果可能不是特别明显。但是放到一些低资源语言的翻译上面的效果会很明显。而后来随着预训练模型的发展，它在语言生成类预训练模型上，可能它实现了一个更大的模型，更大的语料。那这种模型可能也会带来一个更好的性能提升。

Q7：预训练和直接训练的区别是什么？

A7：预训练这个就是我们片子一开始介绍的，可以认为在处理下游任务之前，或者说进行直接训练之前，我提前在海量的无标注数据上进行一个大规模的训练。然后得到这样一个有一定知识基础或者能力基础的模型之后，我们再配合一些微调、提示等手段，我们可以把它运用到下游任务上。因此预训练比直接训练的区别就是多出来了前面利用无标注数据进行大规模训练的这样一个过程。

Q8：自编码语言模型与自回归语言模型的区别有哪些？

A8：实际上自编码语言模型，它可能是就是指的就是我们现在的今天给大家介绍的编码的预训练模型。它的主要的模型结构就是Transformer encoder，面向的任务通常是是需要做文本特征中提取的，比如可能自然语言理解类的预训练任务，可能是文本分类的。自回归模型它可能指的就是我们下次直播将给大家介绍的生成类预训练模型，它使用的结构是Transformer decoder，是一个自回归的计算方式，它更加适合于语言生成类，也就是比如机器翻译、摘要生成。

Q9：预训练和微调分别有什么作用

A9：在预训练阶段模型主要去学习一个通用知识，因为它是在海量的无标注的数据进行一个训练。微调的话主要是说我拥有了一个这样训练好的预训练模型之后，我可能要看到更加适配具体的一个下游任务。比如说情感分类，我们可能会让预训练模型更加适配去做这个情感分类任务。同时在微调阶段预训练模型也会学到一些下游任务数据集上的一些特点。

Q10：为什么Transformer模型比循环神经网络在某些任务上更加有效？

A10：因为循环神经网络，我们前面介绍了，它还是虽然说有记忆，但是被遗忘了，就是它的记忆会随着它不断的迭代越来越淡。就是对于历史的记忆会越来越淡。然后Transformer encoder它对于整个文本的建模是使用的是self attention，它是完全的一一对等。就是它不需要记忆，因为它同时看见所有的文本信息，它是不需要记忆的，因此也不存在遗忘这个问题。所以说可能Transformer它在文本上的表现会比循环神经网络更好一些。同时我了解就是可能循环神经网络，你想把它叠加到4层、6层的话，是很难训练的，训练比较困难，但是Transformer我们给它叠到一个六层的话，甚至更高的一个层次，只要数据量够高其实还是很容易实现的，而这种结构更复杂的Transformer里也能提供一个更大的性能潜力。

以上就是直播问答环节的全部内容，下期报告《预训练技术：编码模型》将于6月8日14：00与您相见。更多关于报告的详细内容以及观看直播回放可于小牛翻译云平台视频号或机器翻译学堂获取。NiuTrans Talk，是由小牛翻译主办的，每期将邀请到不同领域的机器翻译专家进行讲解，分享行业干货知识，带你走进机器翻译的世界。更多精彩内容尽在小牛翻译直播间，想了解更多有关机器翻译的内容请关注机器翻译学堂或小牛翻译官方微博号，与小牛翻译一起探讨机器翻译技术。

关于我们

专注于机器翻译技术基础研究50年，拥有百余人的机器翻译产学研团队，自主研发以中文为核心的NiuTrans机器翻译系统，支持388种语言随心互译。通过丰富的应用与功能，为用户提供机器翻译服务全栈式解决方案，致力于为机器翻译产业化应用提供基础平台，帮助企业级用户在国际业务中消除语言障碍。