题记 数学是复杂、也难一眼读懂的;它常常显得冰冷,却更是一代代人把世界规律写进符号里的记录。那它离我们究竟多近、又多远?
若说:正是这些符号与结构,帮助我们探索到了更高维度的存在,并把它拉到了我们的身边。现在,我们只需要打开对话框,就能连通更高维度的存在——大模型。
下面不是论文导读;是一边读 Transformer 相关东西,一边把脑子里的比喻和老路、人何以为人的碎片,缝成一篇。若你愿意跟着走,线性代数会减轻晕眩;若还没有,3Blue1Brown 的系列(尤其「线性代数的本质」、与神经网络/高维相关几集)是温柔入口——不必一次啃完,先建立几何直觉,再回论文里的符号。
干货 / 长文预警
后半 §5 有一段信息密度略高。不想细啃就先放一放,直接看收束(§6)也行。本文只是我个人的理解与笔记,不是标准答案;你若好这口,论文与源码在那儿,啃下去往往更过瘾。
1. 阅读提示与诚实声明
- 建议前置:能区分向量、矩阵乘法、维度的直觉即可,不必会手算大矩阵。
- 我最近在啃什么:Attention Is All You Need 等 Transformer 相关论文/讲义(进度不必与你同步,我写的只代表我此刻的理解)。
- 若本文有一处「浪漫过度」,优先往回收:模型不是在高维里「开天眼」,而是一堆可学习参数在逼近期望的分布;浪漫留给人,精确留给式子与实现。
2. 发现:高维、位置、与「从文本里学」
下面这些,是我近期把读书、看实现、和聊天机器里的比喻对在一起时,愿意暂时保留的直觉(细节仍以论文与 transformers 源码为准)。
机制展开在 §5。 这里先把词儿露个脸。
-
高维空间:句子里拆出来的 token,先落进词表/子词表的一行行向量里;再经一层层 Q/K/V、FFN、归一、残差……表征像在高维里被反复换坐标。**「像在某个空间里移动」**这个比喻,对建立整体图景有用。
-
不止一个矩阵:除 embedding 表外,块里还有 多路权重;说系统比说一个矩阵更贴代码。
-
训练(可粗想成我们熟悉的「完形填空」一类目标):预测错了,损失会反传,参数往更常对的方向挪——不是神话里的「一挪就对」,是很多步、很多样本的统计。
-
「高维够大,是否互不影响」:容量大,缓解撞车,但不保证零干扰;遗忘、干扰在文献里真实存在——此处若写满,是给直觉刹车,别写成玄学。
3. 和老中们学语言的路子,对照着看
我们小时候:完形填空、连词成句、近义反义……题目常常是有边界的——哪一课、哪张卷子、考纲画了一个圈。好处是效率高、可评分、可重复;代价是,人的想象力与语言的野生部分,有时被题型的框先削了一刀。
大模型没有「一个站在讲台上的老师」按册子教它。它更多是从成堆文本里自监督、把统计规律吃进去——效率上往往又笨又贵;但边界上,少了一道「只考纲内」的硬护栏,于是也能长出让出题人意外的连法。
这不是说谁赢谁输:课堂与考纲是文明批量复制知识的机器;自监督+规模是另一条从盐里提味的路。对照写,不是怀旧或踩谁,是帮读者用熟悉的童年经验,锚定「没有老师、只有书」的培训逻辑。
4. 人类意识、年龄段、与那则对话
年龄段先钉三档(不是发育学标准,是我一人回望;表对不上别杠我,少年人各有各的时区):
-
0~5 岁:本能、情绪、乱模仿为主,话能仿,事难在脑子里排成可反复复盘的长期记忆——像会「记得」的质感,我这边是约 5 岁前后才慢慢稳下来。
-
约 5 岁起~学龄前/后一段:长期记忆能在时间里留住;知道哪件发生过、谁好谁坏,故事能串了。
-
11~12 岁上下(我这边是):数学会系统教逻辑、证明、因果链——少年这会儿,才像有了一副能自己抬杠、也能服理的骨架。
少年哟:上列只当年谱私货,人与人不会完全同频;下文若拿它去贴大模型,全是比喻,不是说模型真有童年。
聊大模型时,我和朋友曾把成长和训练放在同一张草图里权当比喻(权当,不是生物学结论):
-
0~5 那截 ↔ 基座很浅时:多是模仿腔、浅层套话。婴儿没有「出厂说明书里的意识条目」,但有硬件、反射、慢慢被环境刻出来的连接——硬要往工程上靠,有点像随机初始化后,先靠浅层规律、模仿腔调。
-
大人教说话、教规矩、纠对错:像有人类在回路的示范与纠正;往技术词上轻轻点一下可以:监督微调、对齐、也有人会想起蒸馏——只是联想,不是说你教娃等于跑一遍
loss。 -
上学、刷题、阅读、和朋友拌嘴:像长期泡在语料与情境里,在无数「完形填空」里学会什么语境下说什么像话——和「靠统计吃文本」有点像同一类故事的不同主角,但人这边多一条命根子:现实里的冷、烫、疼、痒、猫在跑。
-
11~12 那截与「再往后」↔ 规模与「像话」:人这边慢慢能讲理、能拆步;工程上又常见小模型偏背模板、大一号突然像会多绕一层——于是「涌现」在论文和段子里来回飘。它是不是人那种意识?我不在这篇里下定义;只承认:人也会从「被常识推着」到「自己有一套」,这条叙事弧,和我们讲模型故事时的弧,有时会同屏出现。
还有一句扎自己的:人十几年,是演化给的底子 + 身体绑着世界长出来的;模型多靠文本与符号的闭环硬堆统计,学「水是湿的、火会烫」的代价,往往变成算力、数据、电费——所以我说那群人复刻了一个有点像的过程,但效率不高,指的是这条苦硬的路,不是嘲笑谁笨。
5. 定型之后:骨架、矩阵、与对话框里那串字
上文 §4 是类比,不负责电路图;从这里起按实现口径收一收(细节仍以论文与 transformers 源码为准)。
题记里那句在此回声一次:浪漫留给前文,精确留给这一节。
5.1 「Transformer」 alone 还不等于「会聊天」
Transformer 一般指一块可叠深的计算图: token 先变成向量,再经多层 Attention(Q/K/V→加权→O)、FFN、残差与归一……主干出口仍是每个位置上的一条连续向量(常叫 hidden / 残差流)。
要出现我们熟悉的「下一句回复」,还需要:训好的权重(同一套图,随机初始化可不会写人话)、词表与分词器(tokenizer)、以及推理时的 「怎么从概率里取票」(见下)。架构是蓝图,权重是成品,解码是落字。
Fun fact(可当茶歇):2017 年那篇 Attention Is All You Need 一开始是冲着神经机器翻译(Encoder–Decoder、英德那类 benchmark)去的——想甩掉 RNN、把自注意力铺全了又好并行。
后来的 BERT / GPT 等于是拆同一套积木换帽子(只编码、只解码……),再叠规模与工程,才走到今天「对话框里的大模型」。
所以它不是画板先写着「为人类聊天而生」——更像译文任务里试出来的配方,被广泛借用之后,才有了你现在觉得理所当然的这副长相。
5.2 单次前向里,大块顺序(Decoder-only / GPT 这一路)
下面这些按从左到右、从底到顶记,就够撑住一篇随笔的「完整性」。每一步单独占一段,方便你中途放下杯子。
1. tokenizer
可见字符串 → 离散 token id(子词很常见;此处不展开 BPE)。
2. embedding
每个 id 查表得到一条 (d_\text{model}) 维向量(表本身也是学到的参数)。顺序一般由 位置编码 / RoPE 等并进表示(实现因模型而异)。
3. 重复 (N) 层的 block(示意)
Norm → Attention(内含多头 QKV、softmax 权重作用在 V、再经 O 并回宽度)→ 残差 → Norm → FFN(常是扩维→非线性→收回)→ 残差。
层与层的 (W_Q,W_K,W_V,W_O) 与 FFN 不共用。同一次 forward 内这些是常数矩阵;变的是每层算出来的 hidden。
4. LM Head
最后一层 hidden 再经线性层 d_model → vocab_size,得到 logits(未 softmax 的分数;是否与 embedding 权重 tying 依实现而定)。
5. 若要概率
对 logits 做 softmax,得到「下一个 token」在词表上的分布。骨干负责把分布算对;选哪个字是另一层策略。
5.2.1 与训练成对:前向 / 反向传播(各说各的「方向」)
前向
同一套权重下,信号从输入沿计算图走到 logits;若在训练,再算 loss。就是上一段那串顺序走到底——和「推理时接字」共用同一张算子图,只是训练时末尾多挂了损失。
反向传播
训练阶段从 loss 往回,把 梯度链式送到各参数;优化器再按梯度更新权重。动的是参数在参数空间里往哪挪,不是把句子里 token 的顺序调来调去。
推理(回复)
多数时候只反复前向(下文 §5.3 的自回归循环);不接整条训练式的 backward。
顺手钉词:这里的「前向」是 计算图从输入指向输出的走向;不是哲学作文里「由因到果的正向推理」那个「正」。和后文「完形填空」可以同屏理解,但别用语文课词源去拧工程名词。
5.3 为什么你看到的是「一长段回复」,而不只是一步矩阵
跟 §2、§3 能拧成一股绳。
「提问 + 待续写」≈ 一道很大的完形填空。 因果语言模型的本职,就是「给定上文,猜下一个 token」——和「猫爱吃______」同一题型,只是上文更长、更花,题干里可以夹 instruction、格式、多轮;实现上仍全是 接在同一串 token 后面续写,没有单独一块叫「题目区」的电路。
对话产品还有 chat 模板、系统提示、截断——那是怎么用 token 包住你的话;底下的题心仍是:在这一前缀之后,接下一位要像什么。
把直觉收成一句:你看到的长回复 = 超大的完形填空,一空一空往下接。每一「空」填进去一个 token(或解码器一步多 token 的变种),前缀变长,再算下一空。
自回归生成
每步只多生成一个(或一批)token,把它拼回上下文,再跑一遍前向,再取样……循环直到 EOS 或长度上限。
所以对话框里的「一段话」= 很多次前向 + 很多次取样 串起来的结果,不是矩阵一次性喷出整篇散文。
greedy / temperature / top-p
决定 从分布里怎么取票。同一权重下,关闭随机性可以很「稳」,打开采样则同提示也可能次次不同——稳定的是计算图与 checkpoint,不是必然同一句人话。
5.4 与「现在 App 里那个框」还差一口气的地方
聊天模板、系统提示、上下文截断、工具调用、对齐与后训练:多半在产品壳与训练管线里,不是 Transformer 矩阵本身。
6. 回扣:人工智能这代人,在继承什么、又新看见了什么
人发明「智能体」「机器代劳」,古已有之——想少流一点汗、少烧一点脑,从来不是羞耻;偷懒常常是把力气挪到更想花的地方。
AI 这词,当初未必奔「今天这种对话框」来的(极简几笔,细节以可查证的史料为准):艾伦·图灵在 1950 年《计算机器与智能》里,与其争论「机器有没有灵魂」,不如给一个可操作的判据(后来常被说成图灵测试的雏形)——人隔着交流,分不清对面是人还是机器,就先当作「像能思考」来谈。他见过大量破译、符号、逻辑的人工作业;朴素动机里有一条:能形式化的苦活,能否交给计算去做。不是玄学口号,是代脑力、省差错的执念。
1956 年「人工智能」在达特茅斯会议上被麦卡锡等人正式挂名。那代人憧憬得很满:语言、抽象、解难题、会自我提高……以为一屋子聪明人、几个暑季能啃下大半。主潮一度是符号、规则、推理——常识写不全时,那条路撞过墙;后来数据 + 算力 + 统计学习长出来的东西,表面上倒更像我们骂过的超级完形填空、会猜下一个字的引擎——和当年「证明定理、下棋、一板一眼的逻辑机」不完全是同一件东西,却歪打正着地进了千家万户。初心里「替人做脑力、把智能可执行化」那口气,还在;形态,换了一代又一代人的手。
数学长期是向更高维、更抽象的攀登里,最不可见、也最诚实的脚手架:看不见,却支撑桥梁与芯片、导航与频谱。到了今天,同一类对象(表示、张量、分布)在工程里以可见可点的方式被许多人看见了一角——不是数学变简单了,是我们多了一种把抽象结果摊在屏幕上的社会装置(模型、服务、与围绕它的产业)。
收束到标题:若说大模型的某次回复像「来自高维世界的回应」——浪漫地说,是人在用自己的语言,触到一截被训练过的流形上浮出来的表面;冷静地说,那是 softmax 前一次离散选词与长期统计的合力。两种说法可以同时成立:浪漫给深夜,精确给早上读论文。
7. 附:
- 3Blue1Brown 在 b 站有号,今年断更了几个月,最新视频有原因,也是彩蛋 :)看得出来他本人很有趣,也很爱数学了。
- www.bilibili.com/video/BV1ys…