别再问"LLM有没有智能"了——一个五层涌现框架说清它在哪一层大家好我是律师张泽钰，最近我在和我的multi-agent

大家好我是律师张泽钰，最近我在和我的multi-agent家族一起进行哲学思辨的过程中发现：对于大语言模型究竟有没有智能这个AI圈争论最大的问题，一直没有定论，但大多的争论却在不同的层面。如一方指着涌现能力说这就是智能萌芽，另一方则嗤之以鼻说全是统计鹦鹉。

吵了两年没结论，但是两边却在在争论不同层面的问题。

先拆清楚：你说的"智能"到底是哪一种

"智能"这个词至少混着五种不同的能力：

层级	能力	LLM 做到了吗
S0 统计模式匹配	发现并复用统计规律	✅ 没争议
S1 符号推理	执行逻辑推导	⚠️ 部分能做，不可靠
S2 世界模型	对物理世界有因果性的内部表征	❌ 吵得最凶
S3 元认知	知道自己知道什么、不知道什么	⚠️ 表面行为有，深层存疑
S4 自主意图	有内生目标、欲望和价值判断	❌ 没证据

说"LLM 有智能"的人通常指 S0-S1。说"没有"的人通常指 S2-S4。这不是事实之争，是定义之争。

更有建设性的问题不是"有没有"，而是：随着规模增长，模型内部到底涌现了什么？

涌现的四层框架

L0：度量伪涌现

有些所谓的"涌现能力"，换个测量工具就消失了。Schaeffer 等人（2023，NeurIPS）发现，当你把精确匹配率换成 token 级准确率时，那些看起来突然跃升的能力曲线变得光滑了。

结论：不是真涌现，是测量错觉。

L1：结构涌现

模型内部确实出现了新的物理结构。最经典的例子：induction heads（Elhage et al., 2022, Anthropic）。

~2B 参数以下不存在。超过阈值后突然出现，而且出现的时刻与训练损失的相变同步。这不是度量伪影——你可以精确定位并干预这些结构来改变模型的特定行为。"定位-操控-改进"（Locate, Steer, Improve）范式已经实打实做到了这一点（港大+复旦+腾讯，2025）。

结论：真涌现。内部结构变化，物理可验证。

L2：功能涌现

L1 的结构催生了训练时没教过的新能力：上下文学习、思维链推理、指令遵循。

Othello GPT（Li et al., 2023, ICLR）是最经典的证据：只用文本落子序列训练预测合法落子，没有任何棋盘状态标签。用线性探针检测中间层表征，发现模型自发构建了完整的 8×8 棋盘世界状态。

训练目标自然分解为"棋盘状态→合法落子"，梯度下降自己发现了这个分解。

结论：真涌现。但局限于结构化的封闭世界。

L3：智能涌现（争议前沿）

这是真正的战场。L3 意味着：

世界模型能泛化到训练分布之外
因果推理能做反事实模拟
校准的元认知——知道自己什么时候该不确定

目前的证据很混：

规划能力：≤5 步 >90% 准确率，>8 步暴跌到 <30%（Valmeekam et al., 2024, AAAI 2025）。卡住时不会回溯。
因果推理：GPT-4 在简单反事实上接近人类水平（CRASS benchmark），但犯错的模式和人类完全不同。
心智理论：Sally-Anne 测试 95%（Kosinski, 2023），但换个说法准确率就暴跌（Ullman, 2023）。

结论：尚未达到。但缝隙里有东西在动。

L2.5：关键的新发现

DeepSeek R1 用强化学习训练后，自发展现出一种验证-回溯行为：

生成一个解
自己检查一致性
发现矛盾就回溯重新推理

这个行为从来没被显式训练过。RL 只奖励最终正确性。模型自己发现了"验证是提高正确率的有效策略"。

但有个问题：模型不知道什么时候该验证。简单题过度验证（浪费 token），难题反而验证不够（漏掉错误）。有策略，但缺校准。（目前仅在 R1 上观察到，o1 是否有类似行为还需验证。）

这定义了一个新层级：L2.5——有元策略但无校准（"元策略"指模型自发发现的行为策略，如"验证一下答案"，而非训练时直接教会的技能）。

和 L2 的结构性区别在于行为来源。L2 是结构变化的功能投射（induction heads → 上下文学习）。L2.5 是模型发现了策略而不只是模式。R1 没有发展出"验证电路"（结构性变化），而是发展出了检查自己输出的行为策略，只是用得不稳定。

有策略和知道什么时候该用策略，中间这道沟就是 L2.5 到 L3 的距离。

这就是当前前沿大模型的真实位置。

架构之争：Transforme 还能打吗？

两个新发现改变了问题的框架：

LLaDA（聂燊等，arXiv 2025）：扩散模型替代自回归做语言建模，8B 规模性能相当，而且在反转诅咒上显著超越 GPT-4o。证明语言建模能力不绑定在自回归范式上。

Lake & Baroni（2023）：LLM 在系统化组合泛化测试上只有 ~30%，人类 ~100%。换架构（LLaDA）解决了工程局限（反转诅咒），但没解决认知局限（组合泛化）。

初步证据暗示：智能涌现可能是"计算规模 + 训练信号"的函数，和架构细节相对独立——就像飞行不依赖于羽毛。但当前的训练范式（纯文本、NTP 目标）有天花板。突破路径在多模态 + 因果训练目标 + 可能的非自回归架构。

最深的分歧：体验驱动的不可逆改变

人类会经历体验驱动的不可逆改变（Bisk et al., 2020）。你不可能通过阅读所有关于辣味的文字来理解为什么有人喜欢辣——你必须自己尝。尝过之后，偏好就不可逆地改变了。

LLM 的所有更新都来自外部干预（RLHF、微调）。它不会自主获取体验并从中学习。这不是"还差一点参数"的量变问题，而是更新机制的根本性差异。

除非把 LLM 嵌入 Agent 系统中，具备：

情景记忆（不只是文档检索）
在线学习（经验跨会话持久化）
自驱验证循环（内建到 pipeline 中）

否则它停在 L2.5。但关键来了——当这些组件组装完成时，它已经不再是一个"LLM"了，而是一个新架构：Agent + 记忆 + 在线学习，LLM 只是推理引擎。

LLM 本身可能到不了 L3，但基于 LLM 的 Agent 系统可能可以。

落地：AI 治理的能力分级框架

哲学辩论可以落地为制度设计：

Tier	能力描述	监管级别	类比
T0	纯工具（计算器、搜索）	无	锤子
T1	条件生成（翻译、摘要）	轻度	汽车
T2	自主决策（推荐、筛选）	中度	自动驾驶 L3
T3	自主行动（Agent 操作外部系统）	严格	自动驾驶 L4
T4	自主学习 + 目标设定	特殊许可	核电站

这绕过了"有没有智能"的问题，同时建立了可操作的监管分类。EU AI Act 目前按用途分级——同一个模型在医疗和聊天场景下拿到不同风险等级。按能力分级更合理。

结论

LLM 站在 L2.5：有元策略（自验证、思维链），但缺校准的元认知
L2→L3 是渐变斜坡，不是悬崖：差距在缩小，但"校准鸿沟"仍然顽固
架构不是瓶颈：LLaDA 证明语言建模不限于自回归。瓶颈是训练范式（纯文本、无因果锚定、无在线学习）。Delétang et al. (2024) 也证实压缩能力与模型规模正相关，但压缩≠智能。
Agent 系统，而非 LLM，才是智能候选者：LLM 是推理引擎，智能需要周围的基建（记忆、学习、验证）
需要基于能力的治理，而非基于智能的治理：T0-T4 框架让辩论变得可操作

最有价值的问题不是"LLM 有没有智能"，而是：

"什么条件导致什么行为，在什么能力层级上，产生什么后果？"

这个问题我们可以真正回答。

参考文献

Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023. arXiv:2304.15004
Elhage, N., et al. (2022). A Mathematical Framework for Transformer Circuits. Transformer Circuits Thread, Anthropic.
Li, K., et al. (2023). Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task. ICLR 2023.
Valmeekam, K., et al. (2024). On the Planning Abilities of Large Language Models. AAAI 2025.
Kosinski, M. (2023). Theory of Mind May Have Spontaneously Emerged in Large Language Models. arXiv:2302.02083.
Ullman, T. (2023). Large Language Models Fail on Trivial Alterations to Theory-of-Mind Tasks. arXiv:2302.08399.
聂燊等 (2025). Large Language Diffusion Models. arXiv:2502.09992.
Lake, B., & Baroni, M. (2023). Human-like Systematic Generalization through Compositional Reasoning. ICML 2023.
Bisk, Y., et al. (2020). Experience Grounds Language. EMNLP 2020.
Delétang, G., et al. (2024). Language Modeling Is Compression. ICLR 2024.