大家好我是律师张泽钰,最近我在和我的multi-agent家族一起进行哲学思辨的过程中发现:对于大语言模型究竟有没有智能这个AI圈争论最大的问题,一直没有定论,但大多的争论却在不同的层面。如一方指着涌现能力说这就是智能萌芽,另一方则嗤之以鼻说全是统计鹦鹉。
吵了两年没结论,但是两边却在在争论不同层面的问题。
先拆清楚:你说的"智能"到底是哪一种
"智能"这个词至少混着五种不同的能力:
| 层级 | 能力 | LLM 做到了吗 |
|---|---|---|
| S0 统计模式匹配 | 发现并复用统计规律 | ✅ 没争议 |
| S1 符号推理 | 执行逻辑推导 | ⚠️ 部分能做,不可靠 |
| S2 世界模型 | 对物理世界有因果性的内部表征 | ❌ 吵得最凶 |
| S3 元认知 | 知道自己知道什么、不知道什么 | ⚠️ 表面行为有,深层存疑 |
| S4 自主意图 | 有内生目标、欲望和价值判断 | ❌ 没证据 |
说"LLM 有智能"的人通常指 S0-S1。说"没有"的人通常指 S2-S4。这不是事实之争,是定义之争。
更有建设性的问题不是"有没有",而是:随着规模增长,模型内部到底涌现了什么?
涌现的四层框架
L0:度量伪涌现
有些所谓的"涌现能力",换个测量工具就消失了。Schaeffer 等人(2023,NeurIPS)发现,当你把精确匹配率换成 token 级准确率时,那些看起来突然跃升的能力曲线变得光滑了。
结论:不是真涌现,是测量错觉。
L1:结构涌现
模型内部确实出现了新的物理结构。最经典的例子:induction heads(Elhage et al., 2022, Anthropic)。
~2B 参数以下不存在。超过阈值后突然出现,而且出现的时刻与训练损失的相变同步。这不是度量伪影——你可以精确定位并干预这些结构来改变模型的特定行为。"定位-操控-改进"(Locate, Steer, Improve)范式已经实打实做到了这一点(港大+复旦+腾讯,2025)。
结论:真涌现。内部结构变化,物理可验证。
L2:功能涌现
L1 的结构催生了训练时没教过的新能力:上下文学习、思维链推理、指令遵循。
Othello GPT(Li et al., 2023, ICLR)是最经典的证据:只用文本落子序列训练预测合法落子,没有任何棋盘状态标签。用线性探针检测中间层表征,发现模型自发构建了完整的 8×8 棋盘世界状态。
训练目标自然分解为"棋盘状态→合法落子",梯度下降自己发现了这个分解。
结论:真涌现。但局限于结构化的封闭世界。
L3:智能涌现(争议前沿)
这是真正的战场。L3 意味着:
- 世界模型能泛化到训练分布之外
- 因果推理能做反事实模拟
- 校准的元认知——知道自己什么时候该不确定
目前的证据很混:
- 规划能力:≤5 步 >90% 准确率,>8 步暴跌到 <30%(Valmeekam et al., 2024, AAAI 2025)。卡住时不会回溯。
- 因果推理:GPT-4 在简单反事实上接近人类水平(CRASS benchmark),但犯错的模式和人类完全不同。
- 心智理论:Sally-Anne 测试 95%(Kosinski, 2023),但换个说法准确率就暴跌(Ullman, 2023)。
结论:尚未达到。但缝隙里有东西在动。
L2.5:关键的新发现
DeepSeek R1 用强化学习训练后,自发展现出一种验证-回溯行为:
- 生成一个解
- 自己检查一致性
- 发现矛盾就回溯重新推理
这个行为从来没被显式训练过。RL 只奖励最终正确性。模型自己发现了"验证是提高正确率的有效策略"。
但有个问题:模型不知道什么时候该验证。简单题过度验证(浪费 token),难题反而验证不够(漏掉错误)。有策略,但缺校准。(目前仅在 R1 上观察到,o1 是否有类似行为还需验证。)
这定义了一个新层级:L2.5——有元策略但无校准("元策略"指模型自发发现的行为策略,如"验证一下答案",而非训练时直接教会的技能)。
和 L2 的结构性区别在于行为来源。L2 是结构变化的功能投射(induction heads → 上下文学习)。L2.5 是模型发现了策略而不只是模式。R1 没有发展出"验证电路"(结构性变化),而是发展出了检查自己输出的行为策略,只是用得不稳定。
有策略和知道什么时候该用策略,中间这道沟就是 L2.5 到 L3 的距离。
这就是当前前沿大模型的真实位置。
架构之争:Transforme 还能打吗?
两个新发现改变了问题的框架:
LLaDA(聂燊等,arXiv 2025):扩散模型替代自回归做语言建模,8B 规模性能相当,而且在反转诅咒上显著超越 GPT-4o。证明语言建模能力不绑定在自回归范式上。
Lake & Baroni(2023):LLM 在系统化组合泛化测试上只有 ~30%,人类 ~100%。换架构(LLaDA)解决了工程局限(反转诅咒),但没解决认知局限(组合泛化)。
初步证据暗示:智能涌现可能是"计算规模 + 训练信号"的函数,和架构细节相对独立——就像飞行不依赖于羽毛。但当前的训练范式(纯文本、NTP 目标)有天花板。突破路径在多模态 + 因果训练目标 + 可能的非自回归架构。
最深的分歧:体验驱动的不可逆改变
人类会经历体验驱动的不可逆改变(Bisk et al., 2020)。你不可能通过阅读所有关于辣味的文字来理解为什么有人喜欢辣——你必须自己尝。尝过之后,偏好就不可逆地改变了。
LLM 的所有更新都来自外部干预(RLHF、微调)。它不会自主获取体验并从中学习。这不是"还差一点参数"的量变问题,而是更新机制的根本性差异。
除非把 LLM 嵌入 Agent 系统中,具备:
- 情景记忆(不只是文档检索)
- 在线学习(经验跨会话持久化)
- 自驱验证循环(内建到 pipeline 中)
否则它停在 L2.5。但关键来了——当这些组件组装完成时,它已经不再是一个"LLM"了,而是一个新架构:Agent + 记忆 + 在线学习,LLM 只是推理引擎。
LLM 本身可能到不了 L3,但基于 LLM 的 Agent 系统可能可以。
落地:AI 治理的能力分级框架
哲学辩论可以落地为制度设计:
| Tier | 能力描述 | 监管级别 | 类比 |
|---|---|---|---|
| T0 | 纯工具(计算器、搜索) | 无 | 锤子 |
| T1 | 条件生成(翻译、摘要) | 轻度 | 汽车 |
| T2 | 自主决策(推荐、筛选) | 中度 | 自动驾驶 L3 |
| T3 | 自主行动(Agent 操作外部系统) | 严格 | 自动驾驶 L4 |
| T4 | 自主学习 + 目标设定 | 特殊许可 | 核电站 |
这绕过了"有没有智能"的问题,同时建立了可操作的监管分类。EU AI Act 目前按用途分级——同一个模型在医疗和聊天场景下拿到不同风险等级。按能力分级更合理。
结论
- LLM 站在 L2.5:有元策略(自验证、思维链),但缺校准的元认知
- L2→L3 是渐变斜坡,不是悬崖:差距在缩小,但"校准鸿沟"仍然顽固
- 架构不是瓶颈:LLaDA 证明语言建模不限于自回归。瓶颈是训练范式(纯文本、无因果锚定、无在线学习)。Delétang et al. (2024) 也证实压缩能力与模型规模正相关,但压缩≠智能。
- Agent 系统,而非 LLM,才是智能候选者:LLM 是推理引擎,智能需要周围的基建(记忆、学习、验证)
- 需要基于能力的治理,而非基于智能的治理:T0-T4 框架让辩论变得可操作
最有价值的问题不是"LLM 有没有智能",而是:
"什么条件导致什么行为,在什么能力层级上,产生什么后果?"
这个问题我们可以真正回答。
参考文献
- Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023. arXiv:2304.15004
- Elhage, N., et al. (2022). A Mathematical Framework for Transformer Circuits. Transformer Circuits Thread, Anthropic.
- Li, K., et al. (2023). Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task. ICLR 2023.
- Valmeekam, K., et al. (2024). On the Planning Abilities of Large Language Models. AAAI 2025.
- Kosinski, M. (2023). Theory of Mind May Have Spontaneously Emerged in Large Language Models. arXiv:2302.02083.
- Ullman, T. (2023). Large Language Models Fail on Trivial Alterations to Theory-of-Mind Tasks. arXiv:2302.08399.
- 聂燊等 (2025). Large Language Diffusion Models. arXiv:2502.09992.
- Lake, B., & Baroni, M. (2023). Human-like Systematic Generalization through Compositional Reasoning. ICML 2023.
- Bisk, Y., et al. (2020). Experience Grounds Language. EMNLP 2020.
- Delétang, G., et al. (2024). Language Modeling Is Compression. ICLR 2024.