🧠 Transformer 是什么?
Transformer 是一种用于处理序列数据(文本、语音等)的深度学习模型架构,最早在
Attention Is All You Need 中提出。
✅ 核心思想
👉 不再依赖 RNN/CNN,而是用 注意力机制(Attention) 直接建模序列关系
👉 本质:
通过“关注重要信息”来理解上下文
⚙️ 核心结构
1️⃣ 输入表示
- Token(词) → 向量(Embedding)
- 加上位置编码(Positional Encoding) (因为模型本身不懂顺序)
2️⃣ 自注意力(Self-Attention)
Self-Attention
每个词都会“看”句子中其他词的重要性,例如:
“我打了他,因为他骂我”
模型会自动学到“他”指代谁
👉 核心:计算词与词之间的相关性
3️⃣ 多头注意力(Multi-Head Attention)
Multi-Head Attention
- 多个注意力并行学习不同关系
👉 比如:语法关系 / 语义关系 / 位置关系
4️⃣ 前馈神经网络(FFN)
每个位置单独做非线性变换,提高表达能力。
5️⃣ 残差连接 + LayerNorm
👉 作用:
- 防止梯度消失
- 训练更稳定
🧱 整体结构
- Encoder(编码器):理解输入
- Decoder(解码器):生成输出
👉 但像 GPT 只用 Decoder(生成型模型)
🚀 为什么 Transformer 很强?
相比传统模型:
| 模型 | 问题 |
|---|---|
| RNN | 不能并行、长距离依赖弱 |
| CNN | 感受野有限 |
👉 Transformer 优势:
- 并行计算(训练快)
- 长距离依赖强
- 可扩展到超大模型(GPT、LLaMA)
🎯 处理过程
👉 输入文本 → embedding+位置 → 多层注意力建模关系 → FFN增强表达 → 解码器逐步生成 → softmax输出结果