无序中的秩序：Transformer模型的创新性结构解析最近我在看论文时，发现很多都在用 Transformer 模型，

最近我在看论文时，发现很多都在用 Transformer 模型，我知道transformer很有名，但是我也只是听说过他的大名，不知道他具体是做什么怎么做的，因此我决定深入了解一下，并做个简单记录，方便以后参考。 Transformer 主要用于处理自然语言处理（NLP）任务。与之前的循环神经网络（RNN）和长短时记忆网络（LSTM）等模型不同，Transformer 最主要的模块是使用了注意力机制，而不需要顺序地处理数据，也就是说不依赖时间或序列顺序。transformer的核心功能是处理序列数据，就是处理输入的数据和输出的数据之间的关系，像我自己看的那篇论文，是推荐系统方向的，输入的数据是庞大的用户行为数据，经过整个模型处理，输出的数据就是精确的用户可能点击的数据，提高用户可能点击的概率。

Transformer 由以下几个部分组成：

自注意力机制：这一机制让模型在处理每个词语时，能够参考序列中的其他所有词。比如在翻译时，句子中的某个词可能会依赖其他几个词，这种机制让模型可以全局地理解上下文，从而捕捉长距离依赖关系，比如在最近很火的gpt文本生成中，一句话中各个单词的远近可能对当前词有影响。
多头注意力：这是对自注意力机制的并行化处理，让模型从不同角度（即多个“头”）来理解输入序列。每个“头”可以独立学习不同的信息关联，进一步提升模型的表达能力，使得它能够捕捉到句子中不同的部分。
位置编码：由于 Transformer 不是按顺序处理数据的，它通过位置编码引入词语的位置信息，确保模型能理解词与词之间的顺序关系。就像你阅读一句话时，不仅要知道每个词的含义，还要知道它们在句中的顺序，这样才能明白句子的意思。