「DeepSeek二代」来袭！数学暴击o3，英伟达开源LLM登顶英伟达最新开源的 OpenReasoning-Nemot

英伟达最新开源的 OpenReasoning-Nemotron 模型家族确实在推理领域实现了一次重要突破，尤其以数学能力超越 OpenAI o3 高算力版引发广泛关注。以下是核心要点整合与分析：

🔥 一、核心突破：数学推理超越 o3，泛化能力惊人

数学性能登顶：
基于 DeepSeek-R1-0528（671B 参数）生成的高质量数据训练，32B 模型在 AIME24 数学竞赛获得 89.2 分，在 HMMT 二月赛中达 73.8 分；开启 GenSelect 模式（生成多解后筛选最优）后，HMMT 得分飙升至 96.7，显著超越 OpenAI o3-high 模型表现。
代码泛化意外提升：
该模型仅针对数学任务训练，却在代码基准测试（如 LiveCodeBench）中泛化能力惊人——32B 模型通过 GenSelect@16 将得分从 70.2 提升至 75.3，证明其推理能力具备跨领域迁移性。

⚙️ 二、技术架构：中国模型双核心驱动

基础架构：基于阿里通义 Qwen2.5 微调，继承其高效推理特性。
数据与蒸馏：
使用 DeepSeek-R1-0528 生成的 500 万条数学/科学/代码轨迹数据进行监督微调（SFT），未使用强化学习（RL），实现大模型能力向轻量化模型的“蒸馏”。

📦 三、多尺寸+本地化：平民玩家的科研利器

推出 1.5B、7B、14B、32B 四种参数规模，适配不同硬件：

32B：需高性能 GPU，支持重型推理任务；
7B/14B：可在骁龙 X Elite + 32GB RAM 的设备运行（如高端笔记本）；
1.5B：虽性能较弱（AIME25 仅 45.6 分），但适合移动端轻量实验。

💡 关键优势：完全本地运行，避开云成本，游戏电脑即可部署。

📊 四、性能对比：参数规模显著影响推理能力

以下为不同参数模型在数学基准测试中的表现：

模型参数	AIME24 得分	HMMT 得分	适合场景
1.5B	55.5	31.5	轻量级移动实验
7B	78.2	-	主流笔记本/台式
32B	89.2	73.8→96.7*	高性能工作站/服务器

*注：HMMT 分数中 “→96.7” 指开启 GenSelect 模式后的提升。

参数并非越大越好——7B 对比 1.5B 提升超 20 分，但 32B 需结合 GenSelect 才能发挥极限性能。

❓ 五、局限与争议：研究性质明显，行为分裂待解

非通用助手：专注数学/代码/科学推理，不支持多轮对话，需后续优化才能日常使用。
工具使用与推理割裂：
模型同时学到两种模式：“用工具但推理弱” vs “不用工具但推理强”，未有效融合。英伟达推测需引入强化学习解决。
地缘标签：
因采用中国 DeepSeek 数据，曾被美国国会委员会质疑“安全风险”，但技术合作仍持续推进。

💻 六、如何体验与使用

下载地址：
Hugging Face 主页 👉 nvidia/OpenReasoning-Nemotron
本地运行工具：
支持 LM Studio（跨平台），搜索 “openreasoning” 即可加载模型。

💎 总结：推理轻量化的新里程碑

OpenReasoning-Nemotron 通过 “中国架构+中国数据+英伟达工程化” 的三重融合，验证了仅靠 SFT 也能实现顶级推理性能。它为社区提供：
✅ 免强化的干净基线模型；
✅ 本地可跑的科研级工具；
✅ 数学-代码的泛化新范式。
尽管行为融合和通用化仍是挑战，但已为开源推理树立了高标 —— 或许未来“小模型强推理”的时代，正由此开启。 🚀

【智答专家】您身边免费的GPT4.1人工智能AI助手，免翻！！！无套路！国内直连，支持文本生成,问答,多语言支持,个性化建议,图片生成,代码纠正等等。扫码关注智达专家，欢迎体验。****

微信图片_20250507104423.jpg