一文看懂Self-Attention的计算过程Self-Attention(内部注意力（Intra-Attention）

1. Attention的思想

Attention注意力的核心目标就是从众多信息中选择出对当前任务目标更关键的信息，将注意力放在上面。

本质思想就是【从大量信息中】【有选择的筛选出】【少量重要信息】并【聚焦到这些重要信息上】，【忽略大多不重要的信息】。聚焦的过程体现在【权重系数】的计算上，权重越大越聚焦于其对应的value值上。即权重代表了信息的重要性，而value是其对应的信息。

个人理解，就是对参数进行“加权求和”。

2. Self-Attention计算公式

在这里插入图片描述

其中， $X$ 表示输入的数据， $Q,K,V$ 对应内容如图，其值都是通过 $X$ 和超参（先初始化，后通过训练优化）进行矩阵运算得来的。

可以理解为：Self-Attention中的Q是对自身（self）输入的变换，而在传统的Attention中，Q来自于外部。

3. Self-Attention的计算实例

结合代码进行理解：

Step1：初始化 $W^Q , W^K,W^V$ 矩阵

class BertSelfAttention(nn.Module):
    self.w_q = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.w_k = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.w_v = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768

假设三种操作的输入都是同等维度的矩阵，这里每个特征维度都是768.即三者的维度：

W^Q.shape = [768, 768] \\ W^K.shape = [768, 768] \\ W^V.shape = [768, 768]

Step2: 定义输入

输入的特征维度也为768，即：每个字用768维来进行表示，如图所示：在这里插入图片描述

即输入的X的维度为： [6, 768].

Step3: 计算 $Q, K, V$

由于维度的问题，需要调换以下顺序，以及可能会涉及到转置：

Q = X·W^Q \\ K = X·W^K \\ V = X·W^V

根据以上公式，得到 $Q, K, V$ 的维度：

Q.shape = [6, 768] * [768,768] = [6, 768]

$K,V$ 同理。其维度图如下：

Step4: 根据公式计算注意力Attention

Attention(Q, K, V) = softmax({Q K^T \over \sqrt{d_k}}) V

First: 是 $Q， K$ 矩阵相乘，维度变化： $[6, 768] * [768, 6] = [6, 6]$ ，如图：在这里插入图片描述（1）首先用Q的第一行，即“我”字的768特征和K中“我”字的768为特征点乘求和，得到输出（0，0）位置的数值，这个数值就代表了“我想吃酸菜鱼”中“我”字对“我”字的注意力权重；