青训营X豆包MarsCode 技术训练营第七课｜自注意力机制Transformer结构中的自注意力（Self-Atte

Transformer结构中的自注意力（Self-Attention）机制是一种让模型在序列的每个位置计算注意力权重的方法，这样模型就可以在不同的输入位置之间动态地分配不同的关注程度。自注意力机制的核心思想是让模型在处理序列的某个元素时，能够考虑到序列中其他元素的信息，从而捕捉序列内部的依赖关系。

自注意力机制的工作流程大致如下：

输入表示：模型接收一个序列作为输入，通常这个序列会被转换成一系列的嵌入向量（embeddings），并且每个元素还会加上一个位置编码（position encoding），以保持序列中元素的位置信息。
Q（Query）、K（Key）、V（Value）的生成：对于序列中的每个元素，模型会分别计算出Q、K、V三个向量。这三个向量是输入嵌入向量的线性变换，通常通过不同的权重矩阵来实现。
计算注意力得分：使用Q和K之间的点积来计算注意力得分。为了使得分具有可比性，通常会对点积的结果除以一个缩放因子（通常是K向量的维度的平方根），这一步被称为缩放点积（scaled dot-product）。
应用softmax函数：将注意力得分通过softmax函数转换成概率分布，这样每个位置的注意力权重都在0到1之间，并且整个序列的注意力权重之和为1。
加权和组合：用softmax函数得到的注意力权重对V向量进行加权，然后将这些加权的V向量求和，得到最终的输出向量。
多头注意力：Transformer结构中的自注意力机制通常是多头的，这意味着模型会多次并行地执行上述过程，每次使用不同的权重矩阵来计算Q、K、V，从而从不同的角度理解数据。最后，将所有头的输出拼接起来，再次通过一个线性层，得到最终的多头自注意力的输出。
残差连接和层归一化：自注意力的输出通常会与输入进行相加（残差连接），然后通过一个归一化层（如层归一化Layer Normalization），以促进深层网络训练的稳定性。

自注意力机制的优势在于它能够并行处理序列中的所有元素，这使得模型能够更有效地处理长序列，并捕捉到序列内部长距离的依赖关系。此外，多头注意力机制使得模型能够同时从多个子空间捕捉信息，提高了模型捕捉复杂关系的能力。

青训营X豆包MarsCode 技术训练营第七课 ｜自注意力机制

青训营X豆包MarsCode 技术训练营第七课｜自注意力机制