本文已参与「新人创作礼」活动，一起开启掘金创作之路。

论文题目：Attention Is All You Need（transformer）
时间：2017
来源：NIPS
论文链接：arxiv.org/abs/1706.03…

模型

Encoder 部分

基本过程公式推导

生成q k v三个向量

a乘以不同的权重矩阵生成：q，k，v（注意权重相加应为1）

在这里插入图片描述

这里 x 1 , x 2 , x 3 , x 4 x^1,x^2,x^3,x^4 x1,x2,x3,x4 是同时进行的，x的顺序对attention没什么影响
2. 每个q和每个k做 Scaled Dot-Product Attention
Scaled Dot-Product Attention： α 1 , i = q i ⋅ k i d \alpha_{1,i} = \frac{q^i\cdot k^i}{\sqrt d} α1,i=d qi⋅ki
在这里插入图片描述

使用 softmax 做归一化
softmax ： α ^ 1 , i = e ( α 1 , i ) ∑ j e ( α 1 , j ) \hat\alpha_{1,i} = \frac{e^{(\alpha_{1,i})}}{\sum_je^{(\alpha_{1,j})}} α^1,i=∑je(α1,j)e(α1,i)
α ^ 1 , i \hat\alpha_{1,i} α^1,i 点乘V
b 1 = ∑ i α ^ 1 , i v i b^1 = \displaystyle\sum_i\hat\alpha_{1,i}v^i b1=i∑α^1,ivi
b 2 = ∑ i α ^ 2 , i v i b^2 = \displaystyle\sum_i\hat\alpha_{2,i}v^i b2=i∑α^2,ivi
…

矩阵计算整体流程