注意力机制与自注意力机制的区别两者的关系是：自注意力机制（Self-Attention）是注意力机制（Attentio

两者的关系是：

自注意力机制（Self-Attention）是注意力机制（Attention）的一种特殊情况。

注意力机制的核心思想是：

在处理当前信息时，不平均看所有输入，而是“有重点地看”。

比如做机器翻译时，生成当前这个中文词，模型会重点关注英文句子里和它最相关的那些词。

一般写法里有三类向量：

流程是：

自注意力的“自”，意思是：

Q、K、V 都来自同一个输入序列内部。

也就是一句话中的每个词，去关注同一句话里的其他词。

例如句子：

“小明把书放在桌子上，然后他走了。”

这里“他”在理解时，会去关注句子里的“小明”，这就是自注意力在句子内部建关系。

机器翻译里：

这时是“一个序列关注另一个序列”。

输入一句话：

这时是“自己关注自己这句话里的其他位置”。

可以这样记：

注意力：重点看相关信息
自注意力：在同一段输入内部自己看自己

因为自注意力特别适合处理：

比如一句话里，开头的词和结尾的词关系很远，RNN不太容易处理，但自注意力可以直接建立联系。

最准确的说法是：

注意力机制是大类，自注意力机制是其中一种。
区别在于 Q、K、V 是否来自同一个序列。

注意力机制与自注意力机制的区别.png