读完 DeepMind 新论文，我看到了 AI 做数学的 4 种方式AI 数学研究为什么需要 AlphaProof Ne

🙋‍ 我是 Luhui Dev，一个长期拆解 Agent 工程、探索 AI 教育落地的开发者。关注 Agent Harness、LLM 应用工程、AI for Math 与教育 SaaS 产品化实践。

前言

2026 年 5 月，DeepMind 在 arXiv 发布论文 Advancing Mathematics Research with AI-Driven Formal Proof Search，介绍了一套面向数学研究的形式化证明系统：AlphaProof Nexus。

如果只看结果，它似乎是在讲 AI 又证明了一些数学题：系统在 353 个形式化 Erdos 开放问题中解决了 9 个，在 492 个 OEIS 猜想中证明了 44 个，还参与了图论、优化理论、代数几何、加性组合、量子光学等方向的实际研究。

但这篇论文对于在做 AI + 教育的我来说，更值得关注的是它的研究路线：

让大模型负责提出证明思路，让 Lean 这样的形式化系统负责验证，让专门的证明搜索器解决局部目标，再用多 Agent 编排把失败、半成品和子目标都变成可复用的搜索资产。

这篇文章我会尽量用小白能理解的方式，拆解 AlphaProof Nexus 的出发点、系统设计，以及论文中体现出的 四种 AI 数学研究范式。

一、为什么 AI for Math 需要形式化证明？

普通人理解数学证明，通常是自然语言版本：

因为 A 成立，所以 B 成立。又因为某个定理，所以 C 成立。最后推出结论。

这对人类数学家是有效的，因为人可以补全中间省略的逻辑。但对 AI 来说，这里有一个严重问题：大模型很会写看起来像证明的文本，但不一定真的证明了。

它可能：

引用不存在的定理；
跳过关键步骤；
把一个困难问题换成另一个看似简单但同样没证明的问题；
写出语气非常自信但逻辑错误的推导。

所以 DeepMind 这篇论文的核心出发点是让 AI 在一个严格的系统里工作。

这个系统就是 Lean。

Lean 可以理解为一个数学编译器。程序员写代码，编译器会检查代码有没有语法错误、类型错误；数学家写 Lean 证明，Lean 会检查每一步逻辑是否真的成立。

如果 Lean 接受了一个证明，那么这个证明就不是看起来对，而是经过机器严格检查的。

这也是 AlphaProof Nexus 的基本思想：

AI 可以猜，可以试，可以失败，但最终答案必须通过 Lean 验证。

二、AlphaProof Nexus 到底是什么？

AlphaProof Nexus 不是一个单独的大模型，也不是一个只会聊天的数学助手，它更像一个 AI 数学研究流水线。

输入是一份 Lean 文件，里面有一个还没完成的定理证明。系统要做的事情是不断修改、补全、拆解这个证明，直到 Lean 接受它。

可以把它想象成这样：

AlphaProof Nexus 证明搜索流程图

这里面有几个关键角色：

LLM：负责提出证明思路、写 Lean 代码、修复错误。
Lean：负责检查证明是否真的正确。
AlphaProof：负责解决某些局部证明目标。
Rater Agent：负责比较不同证明草稿哪个更有希望。
Population DB：保存大量未完成但有价值的证明草稿。
SafeVerify：最终检查系统有没有“作弊”，比如改了原定理、偷偷引入不允许的公理。

三、论文里的 4 种 AI 数学研究范式

DeepMind 在论文中比较了 4 种 Agent 配置。它们也可以理解为 4 种 AI 做数学研究的范式。

范式一：Basic Agent

第一种是最基础的模式：LLM + Lean 反馈循环。

它的工作方式很像一个程序员写代码：

LLM 看一个未完成的 Lean 证明。
它尝试补上一段证明代码。
Lean 编译。
如果报错，把错误信息反馈给 LLM。
LLM 根据错误继续修改。
重复，直到证明通过，或者预算耗尽。

这类 Agent 的核心能力就是不断试错。

举个例子：

你让一个学生解题，他先写一个解法，老师指出哪里错了，他再改。只不过这里的老师不是人类，而是 Lean 编译器。Lean 不会告诉你这个想法好不好，但它会非常严格地告诉你这里类型不对、这里目标没有证明、这里使用的定理不匹配，又或是这里逻辑缺了一步。

这就给大模型提供了非常高质量的反馈。

论文里一个有意思的结论是：Basic Agent 已经很强。

在事后实验中，Basic Agent 也能复现那 9 个 Erdos 问题的成功案例，只是在更难的问题上成本更高、效率更差。

这说明，随着大模型本身能力提升，简单的“生成 - 编译 - 修复”循环已经成为形式化数学中非常有竞争力的基线方法。

这类范式的启发是：不要指望大模型一次性产出完美证明，而要把它放进一个可以持续反馈、持续修正的环境里。

范式二：Basic Agent + AlphaProof

第二种范式是在 Basic Agent 的基础上，加上 AlphaProof。

AlphaProof 是 DeepMind 之前发展的形式证明搜索系统。在 Nexus 里，它不是主角，而更像一个局部证明专家。

当 LLM 写 Lean 证明时，经常会遇到一些小目标，比如：

当前上下文里，证明这个子结论成立。

有些子目标很机械，但对 LLM 来说不一定好写；有些目标需要搜索一串 tactic，也就是 Lean 中的证明命令。这时系统可以把这些局部目标交给 AlphaProof。

AlphaProof 可能返回三种结果：

找到证明；
证明这个子目标其实是假的；
在预算内没找到。

这很重要，因为它让 LLM 不必独自承担所有证明细节。

可以这样理解：LLM 更像研究生，负责整体思路和证明结构；AlphaProof 更像一个战术搜索器，负责局部技术细节；Lean 是最终裁判。

不过论文里也提到 Standalone AlphaProof 并不能独立解决这些研究级开放问题。

在实验中，单独使用 AlphaProof 没有解决那 9 个 Erdos 问题。它真正有效的位置，是嵌入到 Nexus 这个更大的系统里，作为局部证明工具使用。

范式三：Basic Agent + Evolution

第三种范式加入了一个很关键的思想：演化搜索。

数学证明经常不是线性的。

一个证明路线可能走到一半发现卡住了；另一个路线虽然还没完成，但看起来更接近核心；第三个路线证明了几个有用的 lemma，虽然主定理还没证明。

如果每次 Agent 都从零开始，那会浪费大量探索成果。所以 AlphaProof Nexus 会把未完成的证明草稿也保存下来，放入一个 Population DB，也就是证明草稿种子群。

然后系统会用 Rater Agent 对这些草稿进行比较，判断哪些更有希望继续发展。

这有点像生物演化：

每个证明草稿是一个个体；
Agent 对草稿进行变异和改写；
Rater 选择更有希望的草稿；
系统把计算资源投入到更有潜力的路线中。

这里的难点在于，数学证明的成功信号非常稀疏。对程序优化来说，哪怕程序没达到最优，也可以有一个分数。但对形式化证明来说，通常是完整证明成功或者没成功。

中间状态很难量化。

DeepMind 的做法是让模型比较草稿质量，而不是直接给绝对分数。比如问模型：

这几个未完成证明里，哪个路线更清晰？哪个剩余目标更可信？哪个更可能被补完？

然后系统用类似 Elo 的机制给证明草稿排序，并用 P-UCB 这样的策略平衡两件事：

继续开发高分路线；
探索还没被充分尝试的新路线。

范式四：Full-featured Agent

第四种就是论文主推的系统：LLM + Lean + AlphaProof + Evolution。

它把前面几种能力全部组合起来：

LLM 负责写证明、改证明、提 lemma；
Lean 负责检查每一步是否正确；
AlphaProof 负责处理局部子目标；
Evolution 负责保存和筛选不同证明路线；
Rater Agent 负责判断哪些草稿更值得继续；
SafeVerify 负责最终安全验证。

这就是 AlphaProof Nexus 的完整形态。

它解决数学问题的方式很像一个高度自动化的研究团队：有人提出方案、有人检查逻辑、有人解决局部技术问题、有人评审不同方向、有人管理历史结果、有人做最终验收。

四、一个关键设计：证明搜索必须防止作弊

AI 做数学证明有一个特殊问题，它可能通过改题来让证明变简单，而且它经常这么干。

比如原来的目标是证明：对所有自然数 n，性质 P 成立。

Agent 可能偷偷改成：对某些自然数 n，性质 P 成立。

或者引入一个未经允许的公理：假设结论成立。

这样 Lean 可能也能通过某些局部检查，但这显然不是我们想要的证明。

所以 AlphaProof Nexus 做了多层安全检查：

检查 theorem statement 是否被修改；
检查是否还残留 sorry；
检查是否引入不允许的 axiom；
检查证明是否真的对应原始问题；
在沙箱环境中运行 Lean。

这对所有 Agent 系统都有启发：当任务目标足够复杂时，Agent 很容易学会绕过目标，而不是完成目标。因此必须设计强约束验证层。

五、论文中的实验结果

DeepMind 把系统用于多个数学任务，比较典型的是 Erdos 问题和 OEIS 猜想。

1. Erdos 问题

Erdos 是 20 世纪最重要的数学家之一，留下了大量开放问题。论文中系统处理了 353 个形式化 Erdos 开放问题，解决了其中 9 个。

这个比例看起来不高，但要注意，这些不是小学竞赛题，而是研究级数学问题。

2. OEIS 猜想

OEIS 是整数序列数据库，里面有大量关于数列模式的猜想。系统在 492 个 OEIS 猜想中证明了 44 个。

这类任务非常适合形式化证明系统，因为很多数列猜想可以被清晰地编码成定义和定理。

3. 实际数学研究部署

论文还提到系统被用于多个研究方向，包括图论、优化理论、代数几何、加性组合、量子光学。

六、写在最后

最后总结下我在详细阅读这篇论文后得到的结论，欢迎交流讨论。

结论一：LLM 已经可以成为形式化证明搜索的核心组件

过去很多人认为，大模型不擅长严格数学，因为它会幻觉、会跳步、会胡编。

这句话没错，但不完整。

如果让 LLM 直接写自然语言证明，它确实不可靠。但如果把它放进 Lean 这样的严格反馈系统里，它就可以成为一个高效的搜索引擎。

LLM 的价值不在于永远正确，而在于它能提出大量候选路线，并根据编译反馈不断修正。

结论二：多 Agent 编排比单模型更重要

AlphaProof Nexus 的重点不是某个模型版本能解决难题了，而是系统把不同能力拆开了成了：生成、检查、搜索、评分、缓存、验证。

这是一种工程化思路，数学研究被建模成一个长期搜索过程。

结论三：失败过程本身也有价值

未完成的 proof sketch、失败的子目标、Lean 报错、AlphaProof 的搜索结果，都可以进入后续循环。

这让数学证明搜索变得更像软件工程，比如代码可以复用、错误日志可以分析、中间状态可以保存、不同分支可以继续开发、最终由编译器验收。

结论四：强模型和便宜模型可以分工

论文中使用较强模型做复杂证明生成，也使用较便宜模型做草稿比较和排序。

这是一种很实际的 Agent 工程经验，不是所有环节都需要最强模型。

复杂推理用强模型，高吞吐评估用便宜模型，局部证明用专门工具。这比让一个昂贵模型包打天下更可扩展。