✨陈千语✨都懂的自注意力机制帝江号最近新招募了一位干员，名字叫汤汤。干员能力的高低，用能力值来表示，能力值的评定暂时基

你的名字-001

大家好，我是半夏之沫 😁😁 一名金融科技领域的JAVA系统研发😊😊
我希望将自己工作和学习中的经验以最朴实，最严谨的方式分享给大家，共同进步👉💓👈
👉👉👉👉👉👉👉👉💓写作不易，期待大家的关注和点赞💓👈👈👈👈👈👈👈👈

1. 注意力机制Attention

帝江号最近新招募了一位干员，名字叫汤汤。

干员能力的高低，用能力值来表示，能力值的评定暂时基于干员的力量属性，下面是帝江号上已经招募的干员的力量属性和其能力值的对应关系。

现在已知汤汤的力量是207，那么汤汤的能力值该如何计算。

塔卫二的守护者，巴别塔恶灵意志的传承者-管理员自然有一套计算方式。

既然汤汤的力量是207，管理员觉得根据汤汤的力量去与已有干员的力量进行相关度系数计算，然后再分别将已有干员的能力值与相关度系数做加权求和，就可以得到汤汤的能力值，如下所示。

但是干员不仅仅有力量属性，还会有智力属性，如果只靠力量评估干员的能力值，评判结果难以让干员信服，所以管理员基于力量和智力，重新给已有干员做了能力值评估，如下所示。

已知汤汤的力量是207，智力是289，重新计算相关度系数，然后加权求和，得到汤汤的能力值如下所示。

随着游戏版本来到3.0，干员属性的个数扩充到了12288，此时干员能力值的计算就变成下面这样。

在该情景下，要评判汤汤的能力值，需要参考已有干员的能力值情况，如果有一个干员的属性和汤汤的相似度很高，那么在评估汤汤的能力值时就应该更多的参考这个干员的能力值情况，即需要将更多的注意力放在和汤汤属性相似度更高的干员身上，这就是注意力机制。

2. 自注意力机制Self-Attention

现在管理员手下有一批干员，干员数量为50个，每个干员的属性个数有12288个。

这50个干员的属性可以表示如下。

现在管理员觉得既然大家作为一个Team，彼此之间需要多交流切磋。

对于每个干员而言，都需要从自己的角度出发，判断自己对每个干员的注意力高低，自己越注意的干员，就越应该从这个干员身上学习一些属性。

陈千语此时犯了迷糊，问管理员怎么才能判断自己对每个干员的注意力高低呢，管理员说需要将更多的注意力给到和自己属性更加相似的干员。

当每个干员都根据各自对其他干员的注意力高低完成了属性学习后，每个干员的属性就会因为受到其他干员的影响而发生一点变化，下图展示了汤汤的属性变化过程。

根据上面的变化过程，可以依次得到50个干员变化后的属性。

但这个时候管理员觉得还有问题，因为终末地里有很多副本，干员的属性在不同的副本里其实是需要调整的，所以干员间的注意力需要和干员在不同副本里的属性的相似度有关，此时管理员通过神经网络学习得到了三个矩阵。

其中一个矩阵是 $W_{q}$ ，将干员的12288维属性通过 $W_{q}$ 做一次线性变换就能得到干员在影拓丰碑副本里面的12288维属性，称这组属性是 $q$ 属性；
其中一个矩阵是 $W_{k}$ ，将干员的12288维属性通过 $W_{k}$ 做一次线性变换就能得到干员在协议空间副本里面的12288维属性，称这组属性是 $k$ 属性；
其中一个矩阵是 $W_{v}$ ，将干员的12288维属性通过 $W_{v}$ 做一次线性变换就能得到干员在‌密境行者副本里面的12288维属性，称这组属性是 $v$ 属性。

现在重新展示汤汤的属性变化过程。

根据上面的变化过程，可以依次得到50个干员变化后的属性。

将50个干员的 $q$ 属性(查询向量Query)全部组合在一起就能得到一个 $50\times 12288$ 的 $Q$ 矩阵。

将50个干员的 $k$ 属性(键向量Key)全部组合在一起就能得到一个 $50\times 12288$ 的 $K$ 矩阵。

将50个干员的 $k$ 属性(值向量Key)全部组合在一起就能得到一个 $50\times 12288$ 的 $V$ 矩阵。

自注意力机制就是组内的每个干员都用自己在不同副本里的属性来和组内干员在不同副本里的属性计算相关度系数，相关度系数越高则表明对这个干员的注意力就需要越高，从而就应该学习这个干员更多的属性。

3. 多头自注意力机制Multi-head Self Attention

在终末地更新了多个版本之后，管理员觉得之前的 $W_{q}$ ， $W_{k}$ 和 $W_{v}$ 不是那么好了，因为每个版本都有不同的副本，干员的属性在每个版本的不同副本里都应该得到调整，聪明的管理员立马想到了解决办法，那就是准备多组 $W_{q}$ ， $W_{k}$ 和 $W_{v}$ ，因为现在已经更新了96个版本，所以管理员通过神经网络学习了96组 $W_{q}$ ， $W_{k}$ 和 $W_{v}$ ，并且聪明的管理员还将 $W$ 矩阵的维度从 $12288\times 12288$ 维降低到了 $12288\times 128$ ，这样可以在计算相关度系数时极大的降低计算量。

引入了96组 $12288\times 128$ 维度的 $W_{q}$ ， $W_{k}$ 和 $W_{v}$ 后，再来看看汤汤的属性变化过程。

因为 $W_{q}$ ， $W_{k}$ 和 $W_{v}$ 的维度变成了 $12288\times 128$ ，所以每个版本得到的属性向量只有128维，但一共有96个版本，所以把96个版本得到的属性向量全部拼接起来就可以还原回12288维的属性向量，最后通过一个 $12288\times 12288$ 维的 $W_{o}$ 进行线性变换后，就可以得到汤汤的变换后的12288维属性向量。

这就是多头自注意力机制，在自注意力机制上将一组 $W_{q}$ ， $W_{k}$ 和 $W_{v}$ 扩展成了多组 $W_{q}$ ， $W_{k}$ 和 $W_{v}$ ，让干员的属性能在不同版本的不同副本里进行相关度计算，最终干员的变换后的属性就包含其他干员在不同版本不同副本里的属性信息。

4. 公式补充

自注意力机制多用于计算一段文字中一个词对另一个词的依赖关系，从而让每个词都能聚合上下文信息。

将一段文字进行Tokenization，Embedding和Positional Encoding后，这段文字的每一个Token都可以表示成一个向量 $x$ ，这段文字的所有Token的向量可以表示成 $\left \{ x_{i}\in \mathbb{R}^{d} \right \}^{t}_{i=1}$ ，这里 $t$ 表示Token个数， $d$ 表示每Token的向量维度。

在自注意力机制中有三个元素，分别是查询 $q_{i}$ ，键 $k_{i}$ 和值 $v_{i}$ ，这三个元素是通过输入向量 $x$ 经过 $W_{q}$ ， $W_{k}$ 和 $W_{v}$ 做线性变换依次得到的，表示如下。

$x_{i} W_{q}=q_{i}$

$x_{i} W_{k}=k_{i}$

$x_{i} W_{v}=v_{i}$

其中 $W_{q} \in \mathbb{R}^{d\times d_{q}}$ ， $W_{k} \in \mathbb{R}^{d\times d_{k}}$ ， $W_{v} \in \mathbb{R}^{d\times d_{v}}$ ， $\left \{q_{i} \in \mathbb{R}^{d_{q}} \right \}^{t}_{i=1}$ ， $\left \{k_{i} \in \mathbb{R}^{d_{k}}\right \}^{t}_{i=1}$ ， $\left \{v_{i} \in \mathbb{R}^{d_{v}}\right \}^{t}_{i=1}$ 。

如果要计算 $i$ 位置的Token需要聚合的上下文信息，首先需要将 $q_{i}$ 分别与 $k$ 做点积运算得到匹配分数，如下所示。

$q_{i}\cdot k_{1}$

$q_{i}\cdot k_{2}$

$...$

$q_{i}\cdot k_{t}$

然后需要对所有匹配分数进行缩放，如下所示。

$\frac{q_{i}\cdot k_{1}}{\sqrt{d} }$

$\frac{q_{i}\cdot k_{2}}{\sqrt{d} }$

$...$

$\frac{q_{i}\cdot k_{t}}{\sqrt{d} }$

再然后做 $Softmax$ 就得到了相关系数，如下所示。

$\frac{e^{\frac{q_{i}\cdot k_{1}}{\sqrt{d} }} }{\sum\limits_{j=1}^{t} e^{\frac{q_{i}\cdot k_{j}}{\sqrt{d} }}}$

$\frac{e^{\frac{q_{i}\cdot k_{2}}{\sqrt{d} }} }{\sum\limits_{j=1}^{t} e^{\frac{q_{i}\cdot k_{j}}{\sqrt{d} }}}$

$...$

$\frac{e^{\frac{q_{i}\cdot k_{t}}{\sqrt{d} }} }{\sum\limits_{j=1}^{t} e^{\frac{q_{i}\cdot k_{j}}{\sqrt{d} }}}$

最后将相关度系数与 $\left \{v_{i} \in \mathbb{R}^{d_{v}}\right \}^{t}_{i=1}$ 进行加权求和就可以得到 $i$ 位置的Token聚合完上下文信息后的向量 $z_{i}$ 。

$z_{i}=\frac{e^{\frac{q_{i}\cdot k_{1}}{\sqrt{d} }} }{\sum\limits_{j=1}^{t} e^{\frac{q_{i}\cdot k_{j}}{\sqrt{d} }}}v_{1}+\frac{e^{\frac{q_{i}\cdot k_{2}}{\sqrt{d} }} }{\sum\limits_{j=1}^{t} e^{\frac{q_{i}\cdot k_{j}}{\sqrt{d} }}}v_{2} + ... + \frac{e^{\frac{q_{i}\cdot k_{t}}{\sqrt{d} }} }{\sum\limits_{j=1}^{t} e^{\frac{q_{i}\cdot k_{j}}{\sqrt{d} }}}v_{t}$

上述计算过程就是下面公式的展开。

$Z=Attention(Q, K, V)=Softmax(\frac{QK^{T}}{\sqrt{d} } )V$

在引入多头自注意力机制后， $i$ 位置的Token的向量 $x_{i}$ 需要通过 $N$ 组 $W_{q}$ ， $W_{k}$ 和 $W_{v}$ 线性变换到 $N$ 个不同表示子空间中，然后通过上述计算得到 $N$ 组 $Z=\left \{ z_{i}\in \mathbb{R}^{d_{v}} \right \}^{t}_{i=1}$ ， $N$ 组 $Z$ 首尾拼到一起可以得到 $\left \{ z_{i}\in \mathbb{R}^{Nd_{v}} \right \}^{t}_{i=1}$ ，最后将拼接得到的 $Z$ 再通过一个 $W_{o} \in \mathbb{R}^{Nd_{v}\times d}$ 做线性变换得到最终的输出，最终的输出中 $i$ 位置的Token就聚合了不同表示子空间中上下文的信息。

大家好，我是半夏之沫 😁😁 一名金融科技领域的JAVA系统研发😊😊
我希望将自己工作和学习中的经验以最朴实，最严谨的方式分享给大家，共同进步👉💓👈
👉👉👉👉👉👉👉👉💓写作不易，期待大家的关注和点赞💓👈👈👈👈👈👈👈👈

你的名字-002