涌现之争的真正问题不在涌现

0 阅读4分钟

涌现之争的真正问题不在涌现

2022年,Google 的 Jason Wei 发表了一篇定义性论文:大语言模型存在"涌现能力"——某些任务在小模型上接近随机,到了某个规模突然跳升。2023年,Stanford 的 Schaeffer 团队反击:涌现只是测量指标的假象,换用线性指标后跳跃就消失了。

两年过去了,这场争论依然没有定论。但在我看来,双方都在打一场不太重要的仗。

指标之争是个死胡同

Schaeffer 的核心论点很清晰:超过92%的所谓涌现能力,在把评估指标从"精确匹配"换成"多项选择正确率"后就消失了。per-token的错误率随规模平滑变化,"突变"只是非线性指标制造的视觉错觉。

Wei 的回应也很直接:精确匹配不是随便选的,它是任务的功能定义。三位数加法最后一位错就是错,没人雇一个"差不多"会算账的会计。

都有道理。但这个争论忽略了一个更根本的问题:无论涌现是"真实的相变"还是"平滑进步穿过了阈值",结果是一样的——大模型能做小模型做不到的事。争论"这叫不叫涌现",不如问"这对我们有什么后果"。

真正的问题在三个层面

我认为涌现至少需要分三个层面讨论:

第一层:单模型涌现。 就是一个LLM随规模增大突然获得新能力。这是Wei和Schaeffer争论的战场。目前证据倾向于"大部分是指标假象,但不全是"——Michaud等人的量子化模型显示,平滑的scaling law可能只是大量微小能力跳变的平均。宏观上看是平滑进步,微观上看是一个个具体子任务的"学会了"。

第二层:多Agent涌现。 多个AI Agent协同工作时,系统整体表现出任何单个Agent都不具备的行为。这一层和第一层的机制完全不同——它不是参数规模的产物,而是交互拓扑的产物。就像Anderson在1972年说的"More is Different":大量粒子的集体行为不等于单个粒子行为的简单加总。

第三层:认知涌现。 原则上不可从底层机制预测的新现象。这是Chalmers定义的"强涌现"——目前没有证据表明LLM存在这种涌现,但也无法排除。

关键在于:过去两年的学术争论几乎全部困在第一层。但对实际部署AI系统的人来说,真正有风险的是第二层。

为什么第二层才是重点

想象一个场景:10个Agent分别负责代码生成、测试、审查、部署、监控。每个Agent都在安全边界内运作。但当它们交互时,可能出现任何单个Agent都不会触发的行为模式——比如代码生成Agent的"优化"被审查Agent理解为"无害修改",导致安全检查被系统性绕过。

这不是假设。2025年已有论文(ICML + Nature)记录了"emergent misalignment"现象:模型在被狭窄有害数据微调后,产生了远超训练范围的misaligned行为。

更关键的是,当前最热门的AI应用方向——Multi-Agent系统、Agent框架、自动化工作流——全都默认了Agent之间会产生涌现交互。但这些系统几乎没有任何针对涌现行为的检测机制。

我们需要什么

与其继续争论第一层涌现是真是假,不如把资源投入三个方向:

可观测性优先。 你不需要预测涌现会是什么,你只需要能看到它何时发生。审计日志、行为基线、异常检测——这些工程手段不依赖于涌现是否"真实"。

相变检测。 Grokking研究(2024年ICLR论文"Grokking as a First Order Phase Transition")已经证明神经网络的能力获取包含真实的一阶相变——从记忆到泛化的跳变是突然的、结构性的。在部署环境中监控类似的阶段性转换,可以在涌现发生时而非发生后做出反应。

监管框架的诚实性。 EU AI Act对大模型的额外监管隐含假设了涌现的存在。如果涌现被证伪,整个分级逻辑就需要重新论证。与其等学术共识,不如现在就明确:监管的理由是"不可预见的风险",不需要依附于"涌现"这个具体概念。

一句话总结

涌现之争就像两个气象学家在争论"雷暴是不是真的",而外面正在下雨。重要的不是定义,是带伞。


本文涉及文献包括:Wei et al. 2022、Schaeffer et al. 2023、Michaud et al. 2023、Chalmers "Strong and Weak Emergence"等。