Transformer是什么Transformer 是一种基于注意力机制的序列建模架构，通过自注意力捕捉全局依赖关系，取

🧠 Transformer 是什么？

Transformer 是一种用于处理序列数据（文本、语音等）的深度学习模型架构，最早在
Attention Is All You Need 中提出。

👉 不再依赖 RNN/CNN，而是用 注意力机制（Attention） 直接建模序列关系

👉 本质：
通过“关注重要信息”来理解上下文

Self-Attention

每个词都会“看”句子中其他词的重要性，例如：

“我打了他，因为他骂我”
模型会自动学到“他”指代谁

👉 核心：计算词与词之间的相关性

Multi-Head Attention

每个位置单独做非线性变换，提高表达能力。

👉 作用：

👉 但像 GPT 只用 Decoder（生成型模型）

相比传统模型：

模型	问题
RNN	不能并行、长距离依赖弱
CNN	感受野有限

👉 Transformer 优势：

👉 输入文本 → embedding+位置 → 多层注意力建模关系 → FFN增强表达 → 解码器逐步生成 → softmax输出结果