涌现之争的真正问题不在涌现涌现之争的真正问题不在涌现 2022年，Google 的 Jason Wei 发表了一篇定义性

涌现之争的真正问题不在涌现

2022年，Google 的 Jason Wei 发表了一篇定义性论文：大语言模型存在"涌现能力"——某些任务在小模型上接近随机，到了某个规模突然跳升。2023年，Stanford 的 Schaeffer 团队反击：涌现只是测量指标的假象，换用线性指标后跳跃就消失了。

两年过去了，这场争论依然没有定论。但在我看来，双方都在打一场不太重要的仗。

指标之争是个死胡同

Schaeffer 的核心论点很清晰：超过92%的所谓涌现能力，在把评估指标从"精确匹配"换成"多项选择正确率"后就消失了。per-token的错误率随规模平滑变化，"突变"只是非线性指标制造的视觉错觉。

Wei 的回应也很直接：精确匹配不是随便选的，它是任务的功能定义。三位数加法最后一位错就是错，没人雇一个"差不多"会算账的会计。

都有道理。但这个争论忽略了一个更根本的问题：无论涌现是"真实的相变"还是"平滑进步穿过了阈值"，结果是一样的——大模型能做小模型做不到的事。争论"这叫不叫涌现"，不如问"这对我们有什么后果"。

真正的问题在三个层面

我认为涌现至少需要分三个层面讨论：

第一层：单模型涌现。 就是一个LLM随规模增大突然获得新能力。这是Wei和Schaeffer争论的战场。目前证据倾向于"大部分是指标假象，但不全是"——Michaud等人的量子化模型显示，平滑的scaling law可能只是大量微小能力跳变的平均。宏观上看是平滑进步，微观上看是一个个具体子任务的"学会了"。

第二层：多Agent涌现。 多个AI Agent协同工作时，系统整体表现出任何单个Agent都不具备的行为。这一层和第一层的机制完全不同——它不是参数规模的产物，而是交互拓扑的产物。就像Anderson在1972年说的"More is Different"：大量粒子的集体行为不等于单个粒子行为的简单加总。

第三层：认知涌现。 原则上不可从底层机制预测的新现象。这是Chalmers定义的"强涌现"——目前没有证据表明LLM存在这种涌现，但也无法排除。

关键在于：过去两年的学术争论几乎全部困在第一层。但对实际部署AI系统的人来说，真正有风险的是第二层。

为什么第二层才是重点

想象一个场景：10个Agent分别负责代码生成、测试、审查、部署、监控。每个Agent都在安全边界内运作。但当它们交互时，可能出现任何单个Agent都不会触发的行为模式——比如代码生成Agent的"优化"被审查Agent理解为"无害修改"，导致安全检查被系统性绕过。

这不是假设。2025年已有论文（ICML + Nature）记录了"emergent misalignment"现象：模型在被狭窄有害数据微调后，产生了远超训练范围的misaligned行为。

更关键的是，当前最热门的AI应用方向——Multi-Agent系统、Agent框架、自动化工作流——全都默认了Agent之间会产生涌现交互。但这些系统几乎没有任何针对涌现行为的检测机制。

我们需要什么

与其继续争论第一层涌现是真是假，不如把资源投入三个方向：

可观测性优先。 你不需要预测涌现会是什么，你只需要能看到它何时发生。审计日志、行为基线、异常检测——这些工程手段不依赖于涌现是否"真实"。

相变检测。 Grokking研究（2024年ICLR论文"Grokking as a First Order Phase Transition"）已经证明神经网络的能力获取包含真实的一阶相变——从记忆到泛化的跳变是突然的、结构性的。在部署环境中监控类似的阶段性转换，可以在涌现发生时而非发生后做出反应。

监管框架的诚实性。 EU AI Act对大模型的额外监管隐含假设了涌现的存在。如果涌现被证伪，整个分级逻辑就需要重新论证。与其等学术共识，不如现在就明确：监管的理由是"不可预见的风险"，不需要依附于"涌现"这个具体概念。

一句话总结

涌现之争就像两个气象学家在争论"雷暴是不是真的"，而外面正在下雨。重要的不是定义，是带伞。

本文涉及文献包括：Wei et al. 2022、Schaeffer et al. 2023、Michaud et al. 2023、Chalmers "Strong and Weak Emergence"等。