深度学习笔记——GPT、BERT、T5

437 阅读2分钟

大家好,这里是好评笔记,本文为试读,查看全文请移步公主号:Goodnote。本文详细介绍了三种最火热的基于Transformer架构的NLP模型:GPT、BERT和T5。

9.png

@[toc]

GPT(Generative Pre-trained Transformer)、BERT(Bidirectional Encoder Representations from Transformers)和T5(Text-To-Text Transfer Transformer)都是基于Transformer架构的自然语言处理模型,但它们在结构、训练方式和应用场景上有显著的区别。

一、GPT

GPT的全称是“生成式预训练模型”,其主要设计思想是通过大规模的语言建模任务进行预训练,并通过微调来解决下游的具体任务。GPT的结构特点如下:

  1. Transformer解码器架构

    • GPT使用的是Transformer的解码器(Decoder) 部分。这个架构主要由自注意力机制(self-attention)和前馈神经网络(Feedforward Neural Networks)组成。解码器可以处理序列数据,生成新的序列,因此适合生成任务,如文本生成。
  2. 单向(Autoregressive)语言模型

    • GPT是单向模型,即只能从左到右生成词语。输入的每个词只能依赖于前面的词,不能看后面的词。这种设计使得它在处理语言生成任务时很有效,但在理解句子整体时略显不足。
  3. 预训练任务

    • 预训练阶段,GPT通过自回归的语言建模任务进行训练,目标是预测句子中下一个词。然后,针对不同任务(如文本分类、问答等)进行微调。
  4. 适合生成任务

    • GPT强大的生成能力,自回归的生成文本,每次生成一个词并将其作为输入,再生成下一个词。这种方式使它特别适合生成连贯的段落和长文本。

为何采用单向Transformer?

使用的是解码器自回归生成模式。 使用了Masked Self-Attention(所谓Masked,即遮蔽的意思),即句子中的每个词,都只能对包括自己在内的前面所有词进行Attention,这就是单向Transformer。

基于Transformer的优化

除了仅使用解码器堆叠的架构、未来遮蔽(自回归语言模型)外,还做了下面的优化。

层归一化提前

  • 在标准 Transformer 中,层归一化(Layer Normalization)通常放在残差连接和前馈网络之后,而 GPT 将层归一化放在残差连接之前,称为 Pre-Layer Normalization
  • 这种调整有助于在深层网络中保持梯度的稳定性,并减轻训练深度模型时梯度消失的问题。

详细全文请移步公主号:Goodnote。

参考:欢迎来到好评笔记(Goodnote)!