“只会猜下一个词”的 AI,为什么会写代码?

73 阅读7分钟

explain.webp

在上一篇文章《模型只给概率:AI Engineer 的第一个底层认知》中,我们拆掉了大模型(LLM)的神坛。

当你满怀期待地拆开这个号称“通用人工智能雏形”的黑盒,却发现里面没有什么模拟大脑的神经结构,只有一个朴素到令人发指的机制:

Next Token Prediction(预测下一个词)

一次,又一次。它只是根据当前的上下文,计算概率最高的下一个字是什么。

这就好比你告诉一个软件工程师:“我写了一个能通过图灵测试、能解奥数题、能写 Python 代码的系统。”

工程师问:“核心架构是什么?”

你回答:“一个加强版的手机输入法联想功能。”

这听起来简直是天方夜谭。

“单纯的文字预测”和“复杂的智能表现”之间,存在一个巨大的逻辑断层。 很多人因此无法信服:“如果它只是在猜词,它怎么可能理解我的代码逻辑?”

今天,我们就来填补这个断层。我们需要引入一个 AI 工程领域最关键、也最迷人的概念:统计涌现(Statistical Emergence)。

一、 量变引起的“诡异”质变

为什么我们很难接受“预测下一个词”能产生智能?

因为人类的直觉是线性的:简单的机制 = 简单的结果。

但是,在复杂系统中,这个直觉是错的。

请想象一下水分子。

单个水分子的物理性质极其简单,无非是两个氢原子和一个氧原子。你盯着一个水分子看一万年,也看不出“湿润”这个概念,更看不出“海啸”的破坏力。

但是,当亿万个水分子汇聚在一起,“湿润”、“流动”、“漩涡”这些属性就突然“涌现”了。

这就是涌现(Emergence)

当一个系统在局部只做简单的行为,但在规模增大到一定程度时,整体突然表现出了设计者从未预设过的复杂能力。

在 LLM 的语境下,我们称之为“统计涌现”。

下图是著名的 Scaling Laws(缩放定律) 曲线。你会发现,当模型参数量小的时候,它的某些能力(如数学推理、代码生成)几乎为零,曲线是平的。但当参数量突破某个临界值(比如千亿级),这些能力并非线性增长,而是突然“蹦”了出来。

它依然是在做“预测下一个词”,但因为规模变了,它预测的深度变了。它不再是预测“语法的通顺”,而是在预测“逻辑的通顺”。

lawer.webp

二、 两个工程师视角的类比

为了更直观地理解“规模如何带来智能”,我们用两个程序员最熟悉的例子。

类比 1:从“死记硬背”到“模糊检索”

假设你写了一个最笨的问答系统,没有任何算法,就是一个巨大的 Key-Value 映射(HashMap)。

逻辑是:Input -> 查库找最相似的 Key -> Output。

  • 当数据库里只有 100 条数据时:这就是个智障机器人,稍微问偏一点就答不上来。
  • 当数据库里有 100 万条数据时:它开始有点像样了,能覆盖常见问题。
  • 当数据库里有 1 万亿条数据,且包含了人类历史上所有的对话、逻辑推演和代码片段时

此时,虽然它的底层逻辑依然是“查以往的经验”,但在外界看来,它似乎“通晓天文地理”。

而LLM 比 HashMap 更高级的地方在于: 它存的不是死数据,而是数据的压缩关系。它不是在做 Equals() 匹配,而是在做高维空间的模糊拼凑

在海量数据中,它总能拼凑出一条最符合统计规律的路径。

在这个规模下,极致的“拼凑”看起来就像是“创造”。

类比 2:IDE 自动补全的“成精”之路

软件开发人员每天都在用的 IDE 代码自动补全,本质上就是预测 Next Token。

当输入 def calculate_ 时,IDE 可能会提示 calculate_total。

IDE 懂业务逻辑吗?不懂。它懂 Python 语法吗?其实也不懂。

它只是统计出:在 def 后面,接函数名的概率最高;在 calculate 后面,接 total 的概率比接 apple 高。

现在,请想象,把这个 IDE 的能力放大 100 万倍。

它不再只是看过你项目的代码,它看过了 Github 上所有的开源代码,看过了所有的 StackOverflow 问答,看过了所有的算法教材。

当你写下一段复杂的注释,要求实现一个红黑树时,它依然在做“自动补全”。但因为它见过的模式(Pattern)足够多,它补全出来的代码,逻辑严密、语法正确、甚至还带了异常处理。

它不需要真的“理解”什么是红黑树,它只需要极其精准地复现“红黑树代码在统计学上的分布模样”

这就是工程定义的“推理”:LLM 的推理,不是被编程出来的逻辑模块,而是大规模统计预测在特定条件下呈现出的行为形态。

三、 为什么它能做没见过的题?

这是反驳“统计论”最常见的声音:“如果它只是统计背书,那为什么能解一道全新的数学题?”

这是对统计涌现最大的误解。

LLM 确实没见过这道“原题”。

但是,它见过:

  1. 类似的题目结构。
  2. 类似的解题步骤。
  3. 类似的逻辑推导范式。

它不是在记忆答案,而是在重组模式

就像一个熟读唐诗三百首的人,可能没见过“那只白色的猫坐在窗台上”这个场景。但他掌握了七言律诗的格律(统计模式)和描写的词汇(Token分布)。

于是,他能脱口而出:“白猫静卧窗台侧,如雪凝霜映日斜。”

这句诗从未存在过,但它符合唐诗的所有统计特征。

cat.webp

模型在海量训练中,学习到了“因果关系”、“三段论”、“代码逻辑”这些高维的统计特征。当面对新问题时,它通过概率预测,将这些学到的逻辑片段,像搭积木一样重新组合,从而完成了一次“看起来像推理”的生成。

四、 这种认知对 AI Engineer 意味着什么?

理解“统计涌现”,绝不仅仅是为了在聊天时显摆术语。对于 AI 工程师来说,这是决定你技术路线的底层分水岭。

如果你认为 LLM 真的有“理解”能力,你会:

  • ❌ 盲目信任它的输出。
  • ❌ 认为给个简单的指令,它就应该懂你的言外之意。
  • ❌ 出了 Bug 怪模型“变笨了”。

如果你接受它是“统计涌现”的结果,你就会明白:

  • 它没有真理,只有概率:所以需要做 RAG(检索增强)来给它提供事实锚点。
  • 上下文 = 能力开关:它的能力是“涌现”出来的,需要通过优质的 Prompt(上下文)去激活特定的统计模式。
  • 约束 = 稳定性:它本质上是发散的,工程的目标是用结构化的约束(System Prompt、Format Control)把它限制在可用的轨道上。

总结一下:

统计涌现告诉我们,机器不需要“灵魂”也能表现出智能。

作为工程师,我们要做的不是去神话它,而是清醒地认识到:我们正在驾驭的,是一个基于概率的、通过海量规模暴力美学催生出的超级预测机。

一旦你接受了这个设定,很多工程难题(幻觉、漂移、Prompt 调优)就都有了答案。


阅读更多 AI 工程化实验室系列文章 或关注公众号 AI工程化实验室,深入探索 RAG优化、Agent编排硬核技术干货。