Transformer浅谈

老魏的Java_AGI实战故事

2026-04-19 4 阅读3分钟

一句话介绍

Transformer是一套处理序列的工具架构，先通过训练学会人类语言模式，再在使用时靠自注意力动态理解上下文、消除歧义，最终按概率生成合理的回答

1 最顶层逻辑：总纲

人类和大模型对话，本质也是和计算机对话，计算机本质是冷冰冰的数字，无法理解人类复杂的语言，所以，计算机需要一个翻译器，将人类语言翻译成计算机语言，计算机才能理解，Transformer就是这个的最佳翻译器。

人类语言复杂： 有序、有歧义、有上下文、有丰富语义，计算机本身完全不懂
计算机只懂数字： 无法理解文字、语义、顺序、歧义
需要一套专门处理序列的方案： 早期RNN/CNN都不够强。
Transformer就是这套方案： 一个基于自注意力的架构工具
先训练，再使用：
- 训练：用海量文本学语言模式，存在莫模型权重里
- 推理：用学到的模式，计算并生成合理回答

2 第一层逻辑：为什么语言必须专门处理？

顺序决定语义（我打你 ≠ 你打我）
一词多义（苹果 = 水果 / 手机 / 公司）
存在长距离依赖（前文后文要关联）
计算机只认数字，不懂意义、顺序、结构

必须把自然语言 -> 计算机可计算的向量序列

3 第二层逻辑：Transformer怎么把语言转成计算机能懂的东西？

词嵌入： 把每个词变成向量
位置编码： 高速模型词语顺序
自注意力（核心）： 让每个词看全句，吸收上下文信息
多层网络： 提炼成语义更强的向量

最终得到：**带顺序、带上下文、消歧义的语义向量序列

4 第三层逻辑：自注意力到底怎么消歧义、懂语义？

以“苹果”为例：

每个词生成Q、K、V
- Q：我要查什么
- K：别人的标签
- V：别人的信息
用Q匹配所有K，酸相关度（注意力分数）
分数越高，吸收越多信息
吸收后，苹果变成不同向量

吸收“一台、买” -> 手机
吸收“吃、甜” -> 水果

同一个词，上下文不同，向量不同，歧义自动消失

5 第四层逻辑：模型凭什么知道谁和谁分数高？

模型不是天生懂
先经过大规模训练：看海量文本，学习人类搭配规律
训练过程不断调整Q、K、V权重
训练完成后，权重固定
经常搭配的词、向量方向接近 -> 分数自然高

分数高不高，是训练出来的统计规律，不是理解

6 第五层逻辑：训练 vs 推理

训练阶段（Transformer = 学习工具）
- 输入海量句子
- 用自注意力抓上下文、搭配、规律
- 猜错就改权重
- 最终学到一套固定的语言模式
推理阶段（Transformer = 计算工具）
- 输入问题
- 再次运行自注意力，动态酸上下文关系
- 按学到的模式，预测下一个概率贵高的词
- 逐词生成，形成回答

Transformer全程提供计算结构，不存储知识；知识存在权重里

7 最终逻辑链

人类语言复杂，计算机不懂
Transformer是处理序列、建模语义的架构工具
训练时：用自注意力学语言规律，存为固定权重
推理时：用自注意力算上下文关系，消歧义
模型不是真正理解语义，只是按人类语言概率生成回答