说实话,AI 在文本、图片、甚至代码生成领域已经卷得飞起,但有一个领域一直是“硬骨头”——形式化数学证明。这玩意儿不仅要求强大的逻辑推理能力,还得遵循一套极其严谨、不容出错的符号系统(比如 Lean 4)。直到昨天(2025年4月30日),DeepSeek 突然丢出了一个「王炸」:DeepSeek-Prover-V2-671B,一个参数量高达 6710 亿、专攻数学证明的超大型 MoE 模型,直接把这个领域的 SOTA(State-of-the-Art,当前最佳水平)推到了一个新高度!
这还不算完,DeepSeek 连模型带一套全新的评测数据集 ProverBench 一起开源了,简直是给整个数学 AI 领域送了个大礼包。今天,咱们就来扒一扒这个数学巨兽到底有啥新鲜内容和黑科技!
6710亿参数到底是个啥概念?它是怎么站起来的?
看到“6710亿参数”是不是有点懵?这比很多通用大模型的基础版本参数量还要大得多。但 DeepSeek-Prover-V2-671B 用的可是 MoE(混合专家)架构,这是它在参数量爆炸的同时还能保持效率的关键。想象一下,它不是一个统一的大脑,而是一个拥有**数百个(每层256个专家,每个token激活8个)**专注不同数学领域的“专家”团队。每次处理问题,模型只会激活最相关的几个专家,所以虽然总参数大,但实际计算量相对可控,有点像“事儿分包给最懂的人做”。
它构建在 DeepSeek 自家的 DeepSeek-V3 强大基座之上,拥有 61层 Transformer 层,隐藏层维度高达 7168。更吓人的是,它的上下文长度达到了惊人的 163,840 个 token!在需要追踪复杂证明步骤、引用大量引理和定义时,这超长的记忆力简直是神助攻。
为了让这个庞然大物不至于变成硬件杀手,DeepSeek 还用上了 FP8 量化技术,大大减小了模型体积和推理所需的计算资源。开源时用的 safetensors 格式也让加载模型更安全快捷。
训练这头“数学巨兽”的独家秘方
让 AI 学会像人一样进行严谨的数学证明,这训练过程绝对是重头戏。DeepSeek-Prover-V2 的训练方法,简直是把监督学习的“冷启动”和强化学习的“精雕细琢”玩儿出了花儿。
它最独创的核心,就是那个**“递归定理证明管道”。这可不是简单的喂数据。DeepSeek-V3 这个强大的基座模型先上场,把一个复杂的数学大定理,一步步递归地分解成更小的、更容易解决的子目标**。就像人类数学家思考问题一样,先搭个框架,再细化每个部分。
对于这些分解出来的子目标,管道会尝试生成证明。这里据说还巧妙地利用了一个轻量级的 7B 模型来处理部分子目标的证明,降低了整体的计算成本。一旦子目标被证明,它的证明过程就会被保留下来,并和 DeepSeek-V3 生成的**自然语言推理(CoT,思维链)**结合起来。
整个过程都是自动化的!通过这样循环往复,DeepSeek 生成了一个海量的**“冷启动数据集”**,里面包含了大量带有详细证明过程的数学问题。这彻底缓解了高质量形式化证明数据稀缺的大难题。
有了这个数据集打底,模型先在这个冷启动数据上进行监督微调(SFT),算是打好了基础。
然后,激动人心的**强化学习(RL)阶段来了!DeepSeek 搞了一个叫 GRPO(Generalized Relative Policy Optimization) 的新算法。跟传统 RL 可能需要一个单独的“批评家”模型不同,GRPO 牛就牛在它会为同一个数学问题采样生成一大堆(每次迭代 256个问题,每个问题生成 32个候选证明)不同的证明方案,然后根据这些方案之间的“相对奖励”**来优化。
奖励机制超级直接粗暴但有效:模型生成的 Lean 4 证明,能被 Lean 4 证明器验证通过,奖励就是 1;验证失败,奖励就是 0。这种二元反馈在形式化证明领域简直是天赐良机——结果非黑即白,没有模糊地带!
为了让 RL 更高效,训练时用的问题都是精心筛选的,对 SFT 后的模型来说“有点难但不是完全没希望”。这个过程中,模型探索了各种证明路径,从成功和失败中不断学习如何更有效地找到正确证明。
最后,别忘了那个给力的知识蒸馏。DeepSeek 用 671B 在 RL 阶段生成的优质证明数据,去微调了一个7B 参数的小模型,还把它的上下文也扩展到了 32768 tokens。这意味着,很多时候我们用一个轻量级的 7B 模型,也能享受到 671B 的强大证明能力,这对于实际应用部署太重要了!
性能直接拉满,刷新多项数学证明榜单!
前面说了这么多训练的黑科技,效果怎么样?数据说话!DeepSeek-Prover-V2-671B 的性能直接炸裂,在多个权威基准上刷出了新的 SOTA:
- MiniF2F-test: 这个衡量 AI 形式化数学推理能力的知名高中数学竞赛级别数据集上,DeepSeek-Prover-V2-671B 取得了 88.9% 的通过率!这个数字直接打破了之前的记录,让它稳稳坐上了 MiniF2F 榜单的头把交椅。这意味着它在解决这类具备挑战性的形式化数学问题上,达到了前所未有的高度。
- PutnamBench: 这是个更变态的基准,问题来自高难度的 Putnam 数学竞赛。DeepSeek-Prover-V2-671B 在 658 个问题中解决了 49 个。虽然绝对数量看起来不大,但这已经是遥遥领先的成绩了,展现了模型处理高难度、需要创造性思路的数学问题的潜力。
- ProverBench: 这是 DeepSeek 这次同步开源的全新数据集,自然也是评估模型的重要舞台。
全新开源数据集:ProverBench 究竟包含啥?
光有强大的模型不行,还得有好的评测工具和训练数据。DeepSeek 这次够意思,直接把配套的 ProverBench 数据集 也开源了。这个数据集的设计目标很明确:提供一个更全面、更具教育意义的、且能反映真实挑战的形式化数学问题集合。
ProverBench 一共有 325 个问题,来源非常“接地气”且有代表性:
- AIME 竞赛题 (15个):这部分问题精选自最近两届的 AIME (美国数学邀请赛),也就是 AIME 24 和 AIME 25 的数论和代数部分。AIME 问题以其巧妙和难度著称,能入选 ProverBench,说明这些问题已经被成功形式化,并且是衡量模型在高中数学竞赛级别问题上的真实能力的重要指标。这 15 个问题可是实打实的挑战!
- 教材示例与教育教程题 (310个):这部分问题占了绝大多数,它们来自各种数学教材和教育资源。涵盖的数学领域也非常广泛,包括:
- 微积分 (Calculus)
- 代数 (Algebra)
- 实分析 (Real Analysis)
- 复分析 (Complex Analysis)
- 概率 (Probability)
- 数论 (Number Theory)
- 几何 (Geometry)
- 等等...
这种多样性使得 ProverBench 能更全面地测试模型在不同数学分支和不同难度的(主要是本科级别)问题上的证明能力,而不是只局限于竞赛题。
所有问题都使用了强大的 Lean 4 证明助手进行形式化,保证了数据集的严谨性和问题的可验证性。
最棒的是,ProverBench 数据集已经在 Hugging Face 上完全开源了!任何人都可以免费下载和使用:huggingface.co/datasets/de…
(此处建议插入图片:一张展示 ProverBench 数据集构成比例的饼图或柱状图,或者一个 Lean 4 代码块示例,展示问题形式化后的样子)
意义非凡:AI 在数学证明路上迈出的坚实一步
DeepSeek-Prover-V2-671B 的发布及其亮眼的表现,绝不仅仅是又一个大模型刷榜那么简单。它在这个高难度的形式化证明领域取得突破,意义非常深远:
- 加速数学研究:想象一下,AI 可以帮助数学家验证复杂的猜想,甚至生成证明草稿,这将极大提升数学研究的效率。
- 提升 AI 推理天花板:数学证明是逻辑推理的“极限运动”。在这里取得进展,意味着 AI 在深层次逻辑推理和问题解决能力上取得了显著提升。
- 赋能形式化方法:在软件、硬件、密码学等对正确性要求极高的领域,形式化方法不可或缺。强大的定理证明器能成为这些领域验证工作的强大辅助。
- 推动开源生态:DeepSeek 同时开源模型和数据集,将吸引更多研究者进入这个领域,加速整个社区的发展。
想试试?模型和数据集都给你备好了!
DeepSeek 相当慷慨,不仅开源了 671B 这个旗舰模型,连前面提到的那个经过知识蒸馏的 7B 版本也一起开源了,方便大家在资源有限的环境下进行测试和应用。
- DeepSeek-Prover-V2-671B (旗舰版): huggingface.co/deepseek-ai…
- DeepSeek-Prover-V2-7B (轻量版): huggingface.co/deepseek-ai…
- ProverBench 数据集: huggingface.co/datasets/de…
你可以通过 Hugging Face 的 transformers
库轻松加载和使用这些模型,或者通过 API 服务进行调用。
总结一下
昨天发布的 DeepSeek-Prover-V2-671B,凭借其史无前例的 6710 亿参数规模(MoE 架构)、独创的递归定理证明管道和强化学习训练方法,在形式化数学证明领域取得了里程碑式的突破。它在 MiniF2F-test 上以 88.9% 的通过率刷新纪录,同时开源了包含 AIME 竞赛题和丰富教材示例的 ProverBench 数据集。
这不仅仅是 AI 技术上的又一次飞跃,更是为数学研究、AI 推理能力提升以及形式化方法的应用打开了新的大门。DeepSeek 如此彻底的开源策略,也为整个数学 AI 社区注入了强大的活力。
如果你对数学、对 AI 的逻辑推理能力感兴趣,DeepSeek-Prover-V2 绝对值得你花时间去探索!无论是下载模型亲自体验,还是研究 ProverBench 数据集,都能让你一窥 AI 在形式化数学世界里的最新进展。
如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉
公众号:墨风如雪小站