英伟达开源Nemotron-3 Super：推理提速7.5倍的Mamba-Transformer混合专家模型在追求更强大

在追求更强大型语言模型的道路上，参数规模的增长似乎永无止境。然而，巨大的模型也带来了高昂的推理成本和缓慢的响应速度，成为其在真实世界应用中落地的核心瓶颈。如何构建一个既具备百亿甚至千亿级参数的强大能力，又能实现高效、低成本推理的模型？英伟达最新开源的 Nemotron 3 Super 给出了一个极具说服力的答案。

ArXiv URL：arxiv.org/abs/2604.12…

Nemotron 3 Super 是一个拥有 1200 亿总参数，但每次前向传播仅激活 120 亿参数的混合专家（MoE）模型。它最引人注目的成果是，在主流基准测试中取得了与 GPT-OSS-120B 和 Qwen3.5-122B 等同量级模型相当的准确率，同时在特定配置下，其推理吞吐量分别达到了后两者的 2.2 倍和 7.5 倍。这一飞跃式的效率提升，得益于其架构层面的三大核心创新：Mamba-Transformer 混合架构、名为 LatentMoE 的新型混合专家机制，以及用于原生推测解码的 MTP（多令牌预测）技术。

更重要的是，英伟达此次不仅发布了模型，还将其预训练、后训练、量化后的多个版本检查点，以及关键的训练数据集和方法论悉数开源，为社区探索高效大模型架构提供了宝贵的资源。

融合 Mamba 与 Transformer 的混合架构

传统 Transformer 架构的核心是自注意力（Self-Attention）机制，它能出色地捕捉全局依赖关系，但其计算和内存复杂度会随序列长度呈二次方增长。这使得它在处理长达百万 Token 的上下文时，KV 缓存会成为巨大的系统瓶颈。近年来，以 Mamba 为代表的状态空间模型（SSM）因其线性复杂度和恒定的推理状态大小而备受关注，被视为解决长上下文效率问题的有力竞争者。

Nemotron 3 Super 没有在两者之间做非此即彼的选择，而是将它们巧妙地融合在一起。其架构主体由 Mamba-2 模块构成，利用其高效的序列处理能力来降低大部分计算层的内存开销和延迟。同时，为了保留 Transformer 强大的全局信息整合能力，模型中周期性地插入了少量标准的注意力层作为“全局锚点”。

Nemotron 3 Super 架构中的层级模式

这种混合交错的设计，旨在汲取 Mamba 的效率和 Transformer 的能力，在长上下文推理和模型性能之间取得平衡，尤其适合需要处理海量信息的 Agent 应用场景。

LatentMoE：更精打细算的“专家问诊”

混合专家（MoE）架构通过将模型参数分散到多个“专家”网络中，并在每次计算时仅激活其中一小部分，成功地在扩大模型规模的同时控制了计算量（FLOPs）。然而，传统的 MoE 设计主要关注计算效率，却忽视了内存带宽、通信开销等同样关键的硬件瓶颈。当一个 Token 需要向多个专家“问诊”时，所产生的数据通信和权重加载成本依然相当可观。

为此，Nemotron 3 Super 引入了一种全新的 LatentMoE（潜在混合专家）架构，其核心思想是在一个更低维的“潜在空间”中完成专家的选择和计算。

具体来说，它分为三步：

降维：每个输入的 Token 表示 $x \in \mathbb{R}^{d}$ 会先通过一个可学习的矩阵 $W_{\downarrow}$ 被投影到一个维度更低的潜在空间 $\mathbb{R}^{\ell}$ 中。
潜在空间计算：路由（Gating）网络和所有专家网络都在这个低维的 $\ell$ 空间中进行运算。
升维：专家们的输出结果聚合后，再通过另一个可学习的矩阵 $W_{\uparrow}$ 投影回原始的 $d$ 维空间。

标准MoE与LatentMoE对比

这样做的好处是显而易见的。由于专家计算和节点间的 All-to-All 通信都在低维空间进行，单个专家的权重负载和通信数据量都减少了 $d/\ell$ 倍。模型将由此节省下来的硬件预算，用来增加专家的总数和每个 Token 激活的专家数量（Top-K），最终在相似的计算和通信成本下，换取了更高的模型质量。 LatentMoE 是一种对硬件更友好的设计，它优化的不仅仅是“每 FLOP 的准确率”，更是“每字节参数的准确率”。

MTP：无需草稿模型的原生推测解码

为了进一步提升推理速度，Nemotron 3 Super 内置了多令牌预测（Multi-Token Prediction, MTP）功能，这是一种实现原生推测解码的有效方式。

推测解码的基本原理是，先用一个计算开销小的“草稿模型”快速生成一段候选文本（例如 7 个 Token），然后让主模型一次性地验证这 7 个 Token，而不是传统地逐个生成。如果草稿质量高，主模型可能一次性接受多个 Token，从而大幅减少总的解码步数。但这种方法通常需要维护一个独立的草稿模型，增加了部署的复杂性。

MTP 的巧妙之处在于，它让模型在训练时就学会同时预测未来多个位置的 Token。 Nemotron 3 Super 并非为每个未来位置都训练一个独立的预测头，而是让多个 MTP 头共享参数。这种设计使得最终形成了一个统一且更鲁棒的预测头，它在推理时可以被递归调用，以自回归的方式生成更长的草稿序列，并且拥有更稳定的接受率。

MTP 对吞吐量的提升效果

实验证明，MTP 带来了显著的吞吐量提升。在 SPEED-Bench 基准测试中，开启 MTP 后，模型的用户吞吐量（User Throughput）远高于关闭 MTP 的情况，证明了其在实际应用中的加速效果。

极致效率工程与开放生态

Nemotron 3 Super 的高效不仅体现在架构创新上，也贯穿于其工程实践中。它是首批在 NVFP4 这种极低精度格式下完成大规模预训练的模型之一。在 25 万亿 Token 的海量数据上进行训练，证明了在低精度下进行稳定且准确的预训练是完全可行的，这为未来在有限的硬件资源上训练更大模型铺平了道路。

Nemotron 3 Super 使用的混合精度方案

模型的训练数据策略也颇具匠心。25 万亿 Token 的预训练分为两个阶段：前 80%（20T）侧重于数据的多样性和广泛覆盖，后 20%（5T）则聚焦于高质量数据，以提升模型在各项基准测试上的表现。此外，英伟达还为此专门构建并开源了一系列高质量合成数据集，用于增强模型在代码、逻辑、经济学等领域的特定能力。

Nemotron 3 Super 后训练流程概览

在强大的基础模型之上，Nemotron 3 Super 经过了以 Agent 能力为核心的系统性后训练，包括监督微调（SFT）和多阶段的强化学习（RL），使其具备了强大的多步工具使用和复杂任务执行能力。

最终，Nemotron 3 Super 在性能和效率上交出了一份亮眼的答卷。它不仅在准确性上与同类大型号模型看齐，更在推理效率上实现了数倍的超越，同时支持高达 100 万 Token 的上下文长度。

Nemotron 3 Super 与其他模型的准确率及吞吐量对比

总而言之，Nemotron 3 Super 的发布，不仅仅是开源社区又多了一个强大的基础模型。它更像一份关于如何构建下一代高效大语言模型的技术蓝图。通过 Mamba-Transformer 混合架构、硬件感知的 LatentMoE 和原生的 MTP 加速，它为业界展示了在不牺牲性能的前提下，大幅优化推理成本的有效路径。英伟达将其模型、数据与方法论全面开放的举措，无疑将推动整个 AI 社区向着更高效、更普惠的未来迈进。