深度学习笔记——GPT、BERT、T5本文详细介绍了三种最火热的基于Transformer架构的NLP模型架构：GPT、

大家好，这里是好评笔记，本文为试读，查看全文请移步公主号：Goodnote。本文详细介绍了三种最火热的基于Transformer架构的NLP模型：GPT、BERT和T5。

@[toc]

GPT（Generative Pre-trained Transformer）、BERT（Bidirectional Encoder Representations from Transformers）和T5（Text-To-Text Transfer Transformer）都是基于Transformer架构的自然语言处理模型，但它们在结构、训练方式和应用场景上有显著的区别。

一、GPT

GPT的全称是“生成式预训练模型”，其主要设计思想是通过大规模的语言建模任务进行预训练，并通过微调来解决下游的具体任务。GPT的结构特点如下：

Transformer解码器架构：
- GPT使用的是Transformer的解码器（Decoder） 部分。这个架构主要由自注意力机制（self-attention）和前馈神经网络（Feedforward Neural Networks）组成。解码器可以处理序列数据，生成新的序列，因此适合生成任务，如文本生成。
单向（Autoregressive）语言模型：
- GPT是单向模型，即只能从左到右生成词语。输入的每个词只能依赖于前面的词，不能看后面的词。这种设计使得它在处理语言生成任务时很有效，但在理解句子整体时略显不足。
预训练任务：
- 预训练阶段，GPT通过自回归的语言建模任务进行训练，目标是预测句子中下一个词。然后，针对不同任务（如文本分类、问答等）进行微调。
适合生成任务：
- GPT强大的生成能力，自回归的生成文本，每次生成一个词并将其作为输入，再生成下一个词。这种方式使它特别适合生成连贯的段落和长文本。

为何采用单向Transformer？

使用的是解码器，自回归生成模式。使用了Masked Self-Attention(所谓Masked，即遮蔽的意思)，即句子中的每个词，都只能对包括自己在内的前面所有词进行Attention，这就是单向Transformer。

基于Transformer的优化

除了仅使用解码器堆叠的架构、未来遮蔽（自回归语言模型）外，还做了下面的优化。

层归一化提前

在标准 Transformer 中，层归一化（Layer Normalization）通常放在残差连接和前馈网络之后，而 GPT 将层归一化放在残差连接之前，称为 Pre-Layer Normalization。
这种调整有助于在深层网络中保持梯度的稳定性，并减轻训练深度模型时梯度消失的问题。

详细全文请移步公主号：Goodnote。

参考：欢迎来到好评笔记（Goodnote）！