Transformer论文笔记

160 阅读1分钟

简单介绍

一种基于自注意力的网络架构,原论文主要在机器翻译任务上进行验证。

论文链接

网络结构

  • 核心模块

image.png

多头注意力模块,是编码块和解码块的核心组成部分。

其中,自注意力的查询向量、键向量和值向量Q\K\V由同一个原始向量(最开始为token的词嵌入, 向量维度为d)与n组不同的矩阵WQ,WK,WVW^{'}_Q,W^{'}_K,W^{'}_V相乘得到。(这种方式可以为注意力机制增加可学习参数,同时增加学习的模式)

si=softmax(QK/d)s_i=softmax(Q*K/\sqrt{d})

z=i=0nsiviz = \sum_{i=0}^ns_i*v_i

  • 整体结构

属于编解码架构 image.png

前馈神经网络由两层全连接层构成,第一层维度放大四倍至2048,第二层还原为隐藏层维度512.

LayerNorm更适合文本这种变长序列(不需要padding对齐),测试时可基于测试句子完成Norm。