「DeepSeek二代」来袭!数学暴击o3,英伟达开源LLM登顶

162 阅读3分钟

英伟达最新开源的 OpenReasoning-Nemotron 模型家族确实在推理领域实现了一次重要突破,尤其以数学能力超越 OpenAI o3 高算力版引发广泛关注。以下是核心要点整合与分析:


🔥 一、核心突破:数学推理超越 o3,泛化能力惊人

  • 数学性能登顶
    基于 DeepSeek-R1-0528(671B 参数)生成的高质量数据训练,32B 模型在 AIME24 数学竞赛获得 89.2 分,在 HMMT 二月赛中达 73.8 分;开启 GenSelect 模式(生成多解后筛选最优)后,HMMT 得分飙升至 96.7,显著超越 OpenAI o3-high 模型表现。
  • 代码泛化意外提升
    该模型仅针对数学任务训练,却在代码基准测试(如 LiveCodeBench)中泛化能力惊人——32B 模型通过 GenSelect@16 将得分从 70.2 提升至 75.3,证明其推理能力具备跨领域迁移性。

⚙️ 二、技术架构:中国模型双核心驱动

  • 基础架构:基于阿里通义 Qwen2.5 微调,继承其高效推理特性。
  • 数据与蒸馏
    使用 DeepSeek-R1-0528 生成的 500 万条数学/科学/代码轨迹数据进行监督微调(SFT),未使用强化学习(RL),实现大模型能力向轻量化模型的“蒸馏”。

📦 三、多尺寸+本地化:平民玩家的科研利器

推出 1.5B、7B、14B、32B 四种参数规模,适配不同硬件:

  • 32B:需高性能 GPU,支持重型推理任务;
  • 7B/14B:可在骁龙 X Elite + 32GB RAM 的设备运行(如高端笔记本);
  • 1.5B:虽性能较弱(AIME25 仅 45.6 分),但适合移动端轻量实验。

💡 关键优势:完全本地运行,避开云成本,游戏电脑即可部署。


📊 四、性能对比:参数规模显著影响推理能力

以下为不同参数模型在数学基准测试中的表现:

模型参数AIME24 得分HMMT 得分适合场景
1.5B55.531.5轻量级移动实验
7B78.2-主流笔记本/台式
32B89.273.8→96.7*高性能工作站/服务器

*注:HMMT 分数中 “→96.7” 指开启 GenSelect 模式后的提升。

参数并非越大越好——7B 对比 1.5B 提升超 20 分,但 32B 需结合 GenSelect 才能发挥极限性能。


❓ 五、局限与争议:研究性质明显,行为分裂待解

  • 非通用助手:专注数学/代码/科学推理,不支持多轮对话,需后续优化才能日常使用。
  • 工具使用与推理割裂
    模型同时学到两种模式:“用工具但推理弱” vs “不用工具但推理强”,未有效融合。英伟达推测需引入强化学习解决。
  • 地缘标签
    因采用中国 DeepSeek 数据,曾被美国国会委员会质疑“安全风险”,但技术合作仍持续推进。

💻 六、如何体验与使用

  • 下载地址
    Hugging Face 主页 👉 nvidia/OpenReasoning-Nemotron
  • 本地运行工具
    支持 LM Studio(跨平台),搜索 “openreasoning” 即可加载模型。

💎 总结:推理轻量化的新里程碑

OpenReasoning-Nemotron 通过 “中国架构+中国数据+英伟达工程化” 的三重融合,验证了仅靠 SFT 也能实现顶级推理性能。它为社区提供:
✅ 免强化的干净基线模型;
✅ 本地可跑的科研级工具;
✅ 数学-代码的泛化新范式。
尽管行为融合和通用化仍是挑战,但已为开源推理树立了高标 —— 或许未来“小模型强推理”的时代,正由此开启。 🚀

【智答专家】您身边免费的GPT4.1人工智能AI助手,免翻!!!无套路!国内直连,支持文本生成,问答,多语言支持,个性化建议,图片生成,代码纠正等等。扫码关注智达专家,欢迎体验。****

微信图片_20250507104423.jpg