简单介绍
一种基于自注意力的网络架构,原论文主要在机器翻译任务上进行验证。
网络结构
- 核心模块
多头注意力模块,是编码块和解码块的核心组成部分。
其中,自注意力的查询向量、键向量和值向量Q\K\V由同一个原始向量(最开始为token的词嵌入, 向量维度为d)与n组不同的矩阵相乘得到。(这种方式可以为注意力机制增加可学习参数,同时增加学习的模式)
- 整体结构
属于编解码架构
前馈神经网络由两层全连接层构成,第一层维度放大四倍至2048,第二层还原为隐藏层维度512.
LayerNorm更适合文本这种变长序列(不需要padding对齐),测试时可基于测试句子完成Norm。