🙋 我是 Luhui Dev,一个长期拆解 Agent 工程、探索 AI 教育落地的开发者。关注 Agent Harness、LLM 应用工程、AI for Math 与教育 SaaS 产品化实践。
前言
2026 年 5 月,DeepMind 在 arXiv 发布论文 Advancing Mathematics Research with AI-Driven Formal Proof Search,介绍了一套面向数学研究的形式化证明系统:AlphaProof Nexus。
如果只看结果,它似乎是在讲 AI 又证明了一些数学题:系统在 353 个形式化 Erdos 开放问题中解决了 9 个,在 492 个 OEIS 猜想中证明了 44 个,还参与了图论、优化理论、代数几何、加性组合、量子光学等方向的实际研究。
但这篇论文对于在做 AI + 教育的我来说,更值得关注的是它的研究路线:
让大模型负责提出证明思路,让 Lean 这样的形式化系统负责验证,让专门的证明搜索器解决局部目标,再用多 Agent 编排把失败、半成品和子目标都变成可复用的搜索资产。
这篇文章我会尽量用小白能理解的方式,拆解 AlphaProof Nexus 的出发点、系统设计,以及论文中体现出的 四种 AI 数学研究范式。
一、为什么 AI for Math 需要形式化证明?
普通人理解数学证明,通常是自然语言版本:
因为 A 成立,所以 B 成立。又因为某个定理,所以 C 成立。最后推出结论。
这对人类数学家是有效的,因为人可以补全中间省略的逻辑。但对 AI 来说,这里有一个严重问题:大模型很会写看起来像证明的文本,但不一定真的证明了。
它可能:
- 引用不存在的定理;
- 跳过关键步骤;
- 把一个困难问题换成另一个看似简单但同样没证明的问题;
- 写出语气非常自信但逻辑错误的推导。
所以 DeepMind 这篇论文的核心出发点是让 AI 在一个严格的系统里工作。
这个系统就是 Lean。
Lean 可以理解为一个数学编译器。程序员写代码,编译器会检查代码有没有语法错误、类型错误;数学家写 Lean 证明,Lean 会检查每一步逻辑是否真的成立。
如果 Lean 接受了一个证明,那么这个证明就不是看起来对,而是经过机器严格检查的。
这也是 AlphaProof Nexus 的基本思想:
AI 可以猜,可以试,可以失败,但最终答案必须通过 Lean 验证。
二、AlphaProof Nexus 到底是什么?
AlphaProof Nexus 不是一个单独的大模型,也不是一个只会聊天的数学助手,它更像一个 AI 数学研究流水线。
输入是一份 Lean 文件,里面有一个还没完成的定理证明。系统要做的事情是不断修改、补全、拆解这个证明,直到 Lean 接受它。
可以把它想象成这样:
这里面有几个关键角色:
- LLM:负责提出证明思路、写 Lean 代码、修复错误。
- Lean:负责检查证明是否真的正确。
- AlphaProof:负责解决某些局部证明目标。
- Rater Agent:负责比较不同证明草稿哪个更有希望。
- Population DB:保存大量未完成但有价值的证明草稿。
- SafeVerify:最终检查系统有没有“作弊”,比如改了原定理、偷偷引入不允许的公理。
三、论文里的 4 种 AI 数学研究范式
DeepMind 在论文中比较了 4 种 Agent 配置。它们也可以理解为 4 种 AI 做数学研究的范式。
范式一:Basic Agent
第一种是最基础的模式:LLM + Lean 反馈循环。
它的工作方式很像一个程序员写代码:
- LLM 看一个未完成的 Lean 证明。
- 它尝试补上一段证明代码。
- Lean 编译。
- 如果报错,把错误信息反馈给 LLM。
- LLM 根据错误继续修改。
- 重复,直到证明通过,或者预算耗尽。
这类 Agent 的核心能力就是不断试错。
举个例子:
你让一个学生解题,他先写一个解法,老师指出哪里错了,他再改。只不过这里的老师不是人类,而是 Lean 编译器。Lean 不会告诉你这个想法好不好,但它会非常严格地告诉你这里类型不对、这里目标没有证明、这里使用的定理不匹配,又或是这里逻辑缺了一步。
这就给大模型提供了非常高质量的反馈。
论文里一个有意思的结论是:Basic Agent 已经很强。
在事后实验中,Basic Agent 也能复现那 9 个 Erdos 问题的成功案例,只是在更难的问题上成本更高、效率更差。
这说明,随着大模型本身能力提升,简单的“生成 - 编译 - 修复”循环已经成为形式化数学中非常有竞争力的基线方法。
这类范式的启发是:不要指望大模型一次性产出完美证明,而要把它放进一个可以持续反馈、持续修正的环境里。
范式二:Basic Agent + AlphaProof
第二种范式是在 Basic Agent 的基础上,加上 AlphaProof。
AlphaProof 是 DeepMind 之前发展的形式证明搜索系统。在 Nexus 里,它不是主角,而更像一个局部证明专家。
当 LLM 写 Lean 证明时,经常会遇到一些小目标,比如:
当前上下文里,证明这个子结论成立。
有些子目标很机械,但对 LLM 来说不一定好写;有些目标需要搜索一串 tactic,也就是 Lean 中的证明命令。这时系统可以把这些局部目标交给 AlphaProof。
AlphaProof 可能返回三种结果:
- 找到证明;
- 证明这个子目标其实是假的;
- 在预算内没找到。
这很重要,因为它让 LLM 不必独自承担所有证明细节。
可以这样理解:LLM 更像研究生,负责整体思路和证明结构;AlphaProof 更像一个战术搜索器,负责局部技术细节;Lean 是最终裁判。
不过论文里也提到 Standalone AlphaProof 并不能独立解决这些研究级开放问题。
在实验中,单独使用 AlphaProof 没有解决那 9 个 Erdos 问题。它真正有效的位置,是嵌入到 Nexus 这个更大的系统里,作为局部证明工具使用。
范式三:Basic Agent + Evolution
第三种范式加入了一个很关键的思想:演化搜索。
数学证明经常不是线性的。
一个证明路线可能走到一半发现卡住了;另一个路线虽然还没完成,但看起来更接近核心;第三个路线证明了几个有用的 lemma,虽然主定理还没证明。
如果每次 Agent 都从零开始,那会浪费大量探索成果。所以 AlphaProof Nexus 会把未完成的证明草稿也保存下来,放入一个 Population DB,也就是证明草稿种子群。
然后系统会用 Rater Agent 对这些草稿进行比较,判断哪些更有希望继续发展。
这有点像生物演化:
- 每个证明草稿是一个个体;
- Agent 对草稿进行变异和改写;
- Rater 选择更有希望的草稿;
- 系统把计算资源投入到更有潜力的路线中。
这里的难点在于,数学证明的成功信号非常稀疏。对程序优化来说,哪怕程序没达到最优,也可以有一个分数。但对形式化证明来说,通常是完整证明成功或者没成功。
中间状态很难量化。
DeepMind 的做法是让模型比较草稿质量,而不是直接给绝对分数。比如问模型:
这几个未完成证明里,哪个路线更清晰?哪个剩余目标更可信?哪个更可能被补完?
然后系统用类似 Elo 的机制给证明草稿排序,并用 P-UCB 这样的策略平衡两件事:
- 继续开发高分路线;
- 探索还没被充分尝试的新路线。
范式四:Full-featured Agent
第四种就是论文主推的系统:LLM + Lean + AlphaProof + Evolution。
它把前面几种能力全部组合起来:
- LLM 负责写证明、改证明、提 lemma;
- Lean 负责检查每一步是否正确;
- AlphaProof 负责处理局部子目标;
- Evolution 负责保存和筛选不同证明路线;
- Rater Agent 负责判断哪些草稿更值得继续;
- SafeVerify 负责最终安全验证。
这就是 AlphaProof Nexus 的完整形态。
它解决数学问题的方式很像一个高度自动化的研究团队:有人提出方案、有人检查逻辑、有人解决局部技术问题、有人评审不同方向、有人管理历史结果、有人做最终验收。
四、一个关键设计:证明搜索必须防止作弊
AI 做数学证明有一个特殊问题,它可能通过改题来让证明变简单,而且它经常这么干。
比如原来的目标是证明:对所有自然数 n,性质 P 成立。
Agent 可能偷偷改成:对某些自然数 n,性质 P 成立。
或者引入一个未经允许的公理:假设结论成立。
这样 Lean 可能也能通过某些局部检查,但这显然不是我们想要的证明。
所以 AlphaProof Nexus 做了多层安全检查:
- 检查 theorem statement 是否被修改;
- 检查是否还残留
sorry; - 检查是否引入不允许的 axiom;
- 检查证明是否真的对应原始问题;
- 在沙箱环境中运行 Lean。
这对所有 Agent 系统都有启发:当任务目标足够复杂时,Agent 很容易学会绕过目标,而不是完成目标。因此必须设计强约束验证层。
五、论文中的实验结果
DeepMind 把系统用于多个数学任务,比较典型的是 Erdos 问题和 OEIS 猜想。
1. Erdos 问题
Erdos 是 20 世纪最重要的数学家之一,留下了大量开放问题。论文中系统处理了 353 个形式化 Erdos 开放问题,解决了其中 9 个。
这个比例看起来不高,但要注意,这些不是小学竞赛题,而是研究级数学问题。
2. OEIS 猜想
OEIS 是整数序列数据库,里面有大量关于数列模式的猜想。系统在 492 个 OEIS 猜想中证明了 44 个。
这类任务非常适合形式化证明系统,因为很多数列猜想可以被清晰地编码成定义和定理。
3. 实际数学研究部署
论文还提到系统被用于多个研究方向,包括图论、优化理论、代数几何、加性组合、量子光学。
六、写在最后
最后总结下我在详细阅读这篇论文后得到的结论,欢迎交流讨论。
结论一:LLM 已经可以成为形式化证明搜索的核心组件
过去很多人认为,大模型不擅长严格数学,因为它会幻觉、会跳步、会胡编。
这句话没错,但不完整。
如果让 LLM 直接写自然语言证明,它确实不可靠。但如果把它放进 Lean 这样的严格反馈系统里,它就可以成为一个高效的搜索引擎。
LLM 的价值不在于永远正确,而在于它能提出大量候选路线,并根据编译反馈不断修正。
结论二:多 Agent 编排比单模型更重要
AlphaProof Nexus 的重点不是某个模型版本能解决难题了,而是系统把不同能力拆开了成了:生成、检查、搜索、评分、缓存、验证。
这是一种工程化思路,数学研究被建模成一个长期搜索过程。
结论三:失败过程本身也有价值
未完成的 proof sketch、失败的子目标、Lean 报错、AlphaProof 的搜索结果,都可以进入后续循环。
这让数学证明搜索变得更像软件工程,比如代码可以复用、错误日志可以分析、中间状态可以保存、不同分支可以继续开发、最终由编译器验收。
结论四:强模型和便宜模型可以分工
论文中使用较强模型做复杂证明生成,也使用较便宜模型做草稿比较和排序。
这是一种很实际的 Agent 工程经验,不是所有环节都需要最强模型。
复杂推理用强模型,高吞吐评估用便宜模型,局部证明用专门工具。这比让一个昂贵模型包打天下更可扩展。