Transformer是什么

4 阅读1分钟

🧠 Transformer 是什么?

transformer.png

Transformer 是一种用于处理序列数据(文本、语音等)的深度学习模型架构,最早在
Attention Is All You Need 中提出。


✅ 核心思想

👉 不再依赖 RNN/CNN,而是用 注意力机制(Attention) 直接建模序列关系

👉 本质:
通过“关注重要信息”来理解上下文


⚙️ 核心结构

1️⃣ 输入表示

  • Token(词) → 向量(Embedding)
  • 加上位置编码(Positional Encoding) (因为模型本身不懂顺序)

2️⃣ 自注意力(Self-Attention)

Self-Attention

每个词都会“看”句子中其他词的重要性,例如:

“我打了他,因为他骂我”
模型会自动学到“他”指代谁

👉 核心:计算词与词之间的相关性


3️⃣ 多头注意力(Multi-Head Attention)

Multi-Head Attention

  • 多个注意力并行学习不同关系
    👉 比如:语法关系 / 语义关系 / 位置关系

4️⃣ 前馈神经网络(FFN)

每个位置单独做非线性变换,提高表达能力。


5️⃣ 残差连接 + LayerNorm

👉 作用:

  • 防止梯度消失
  • 训练更稳定

🧱 整体结构

  • Encoder(编码器):理解输入
  • Decoder(解码器):生成输出

👉 但像 GPT 只用 Decoder(生成型模型)


🚀 为什么 Transformer 很强?

相比传统模型:

模型问题
RNN不能并行、长距离依赖弱
CNN感受野有限

👉 Transformer 优势:

  • 并行计算(训练快)
  • 长距离依赖强
  • 可扩展到超大模型(GPT、LLaMA)

🎯 处理过程

👉 输入文本 → embedding+位置 → 多层注意力建模关系 → FFN增强表达 → 解码器逐步生成 → softmax输出结果