DeepSeekMath-V2:当AI学会了自我否定,我们离真正的AGI还有多远?
就在今天,DeepSeek刚刚放出的这篇长达19页的DeepSeekMath-V2论文 在今天这个特殊的节点,这篇论文读出了一种悲壮而从容的意味。
外媒曝出一则消息: 为了绕开禁令获取Nvidia的高端芯片,多家中国科技巨头正不得不远走他乡,将AI模型训练的算力中心转移到海外数据中心。这是一场为了生存的“算力流浪”。
但在这种令人窒息的算力围堵之下,DeepSeek却在论文里展示了另一种“向内求索”的可能性: 如果外部的算力被限制了,那我们就把推理效率进化到极致。
那个击穿人类天花板的分数
先看结果,因为这个结果是对长期主义最好的奖赏。
在刚刚结束的2024年普特南数学竞赛中DeepSeekMath-V2拿到了 118/120 分。 这可是北美最顶尖的本科生数学竞赛,难度令人发指 而这届比赛的人类最高分只有90分 。
在IMO 2025(国际数学奥林匹克)和CMO 2024中,它也都拿到了金牌水平的成绩 。
更讽刺的是,在对比测试中,它全面压制了拥有顶级算力支持的Google Gemini 2.5 Pro和OpenAI的GPT-5-Thinking-High 。
它是如何练成左右互搏术的?
DeepSeekMath-V2凭什么这么强?
拒绝蒙答案,请给我过程
传统的AI训练就像是训练小狗:你给它一个算术题,只要最后答案对,你就给它一块骨头。
但这有个大bug:答案对不代表懂了。
AI可能纯靠蒙,或者用错误的逻辑凑出了对的数 。
DeepSeekMath-V2即使面对没有标准答案的开放问题,也不再痴迷于结果。
它引入了一个极其严苛的阅卷老师,拿着放大镜盯着每一个推导步骤打分:逻辑严密给1分,有小瑕疵给0.5分,瞎编乱造直接0分 。
谁来监督阅卷老师?
但这里有个更有趣的问题:如果那个阅卷老师也就是AI自己,它会不会不懂装懂或者没事找事?
为了解决这个问题,DeepSeek搞出了一个Meta-Verification(元验证),也就是检查那个检查者 。
这就像是给阅卷老师又配了一个督导员。督导员的任务不是做题,而是看阅卷老师的批改是否合理:
“你指出这一步错了,它真的错了吗?”
“你给了满分,但这中间明显跳步了啊!”
人格分裂式的自我反思
更有意思的是,DeepSeek调整了奖励机制:哪怕你题做错了,但如果你准确地指出了自己哪里错了,依然能拿高分!
这就逼着模型在输出最终答案前,必须在内部进行无数次的推导、自我否定、修正。
它不再盲目自信,而是学会了怀疑。
通往AGI的“做题家”和“数学家”
DeepSeekMath-V2凭什么在算力受限的背景下反超?因为它彻底改变了AI思考的方式。
我打个比方,目前的AI进化有两条路:
满分的做题家
以前的大模型(包括很多现在的SOTA),本质上是一个顶级的做题家。
它就像是那个班里记忆力最好的学生,脑子里装了海量的题库。遇到问题,它极速调用记忆,通过模式匹配来秒回答案。
它的局限是: 它只能解决见过或者类似见过的问题。它是在消耗已有的知识,一旦遇到题库之外的全新难题,它就会开始胡编乱造。
真正的数学家
DeepSeekMath-V2则强迫自己进化成了一位严肃的数学家。
数学家不靠死记硬背。面对一个未知的猜想,数学家拥有“学习和推理的元能力”。
它会停下来慢思考,一步步推导,并在过程中创造出训练数据里不存在的新知识。
论文中揭示了这种能力的来源 自我验证(Self-Verification) 。
DeepSeek训练了一个极度严苛的验证者,不仅给结果打分,还盯着推导过程找茬:
Proof Generator(证明生成器) 负责提出大胆的解题思路 。
Proof Verifier(证明验证器) 负责像导师一样冷酷地指出:“这一步逻辑跳跃了,重来” 。
Meta-Verification(元验证) 甚至模型会反思“我刚才挑的错,真的是错吗?” 。
伟大的东西,往往诞生于匮乏
我一直相信,资源匮乏是创新的催化剂,而资源过剩往往是平庸的温床。
当外界在讨论如何搬运GPU、如何绕过禁令时,DeepSeek选择在算法的无人区里,训练AI学会自我否定和慢思考。
DeepSeekMath-V2不仅是一个数学模型,它是一个隐喻。
它告诉我们,通往AGI的道路不止一条。如果那条宽阔的、铺满英伟达显卡的大路被堵死了,那么像数学家一样,用极致的逻辑和理性,在荒原上开辟出一条小径,或许能走得更远。
在这个浮躁的时代,学会像数学家一样慢思考,不仅是AI的进化方向,也是我们每一个科技从业者应有的姿态。
想要了解更多关于DeepSeek及前沿AI工具的实战落地玩法? 点击这里,通往AI未来的头等舱:www.deployai365.com/