深入浅出理解 Transformer 的模型结构与注意力机制从零开始理解 Transformer 模型结构与注意力机制

从零开始理解 Transformer 模型结构与注意力机制

在深度学习发展初期，RNN 和 LSTM 一度是自然语言处理的主力军。但它们存在两个显著问题：

为了打破这两点限制，Google 团队在 2017 年提出了 Transformer 架构，它完全抛弃了循环结构，基于注意力机制，让模型能够：

👇下图是 Transformer 的典型结构：

每个词通过查词向量表，变成一个向量。比如：

输入句子: "I love NLP"
→ Embedding 后变成一个 3x512 的矩阵（假设词向量维度是 512）

由于没有 RNN 的顺序处理能力，Transformer 使用位置编码来加点“顺序感”。方法如下：

核心思想是：每个词都能关注句子中其他所有词，而不是只看相邻词。

输入词: ["I", "love", "NLP"]
每个词都生成一个 Q、K、V
通过打分矩阵 → 计算每个词对其他词的注意力

不是用一组 QKV，而是用 多组 QKV 并行计算，然后拼接结果。

好处：不同的“头”可以关注句子的不同语义维度，比如：

每个词向量都独立通过一个小型 MLP，增加非线性能力：

FFN(x) = max(0, xW1 + b1)W2 + b2

每一层都通过：

LayerNorm(x + Sublayer(x))

Decoder 比 Encoder 多了一个：

假设输入英文：

"Hello world"