Transformer模型的改进

1,123 阅读2分钟

这是我参与2022首次更文挑战的第21天,活动详情查看:2022首次更文挑战

自然语言处理领域的专家和学者一直在寻找最适合NLP的模型,从2013年的word2vec,2014年的RNN、seq2seq等,2015年的LSTM,2017年的Transformer、ELMO,2018年的Bert,2019年的RoBERTa,到2020年的GPT3,可以说,Transformer可能是目前位置最适合NLP的模型。Transformer模型的详细介绍可以阅读这一篇文章: Transformer

Transformer模型特点

广义的Transformer指一种基于自注意力的全链接神经网络,即核心组件就是自注意力(self-attention)。自注意力模型的特点有:为全连接结构、没有任何先验假设、通过位置编码为序列信息建模。而且,由于这类模型的复杂度为O(L2d)O(L^2d),所以它无法处理长文档,而且训练出的模型容易过拟合。

Transformer还包括其他操作:

  1. 位置编码
  2. 层归一化
  3. 逐位的FNN

根据上文Transformer模型的特点,它改进的方向有:引入先验假设、任务特定框架、设计预训练任务、改进精调方法等。下面简单介绍由Transformer改进而来的两个模型Star-Transformer和BPT

Star-Transformer

根据Transformer模型是全连接结构、复杂度高的特点进行改进,产生了Star-Transformer模型。Star-Transformer模型的复杂度为O(2Ld)O(2Ld),引入了局部性先验,所以不需要使用位置编码来建模序列信息,适用于小规模或中等规模的数据。

image.png

BPT: BP-Transformer

Transformer模型中与序列有关的二次成本限制了其更加广泛的应用,尤其是对于长文本。BPT模型对此进行了改进,结合了分层和轻量级Transformer两者的优点

  1. 分曾的Transformer:在层次结构中使用两个Transformer
  2. 轻量的Transformer:通过重建tokens之间的连接来降低复杂度

image.png