在追求更强大型语言模型的道路上,参数规模的增长似乎永无止境。然而,巨大的模型也带来了高昂的推理成本和缓慢的响应速度,成为其在真实世界应用中落地的核心瓶颈。如何构建一个既具备百亿甚至千亿级参数的强大能力,又能实现高效、低成本推理的模型?英伟达最新开源的 Nemotron 3 Super 给出了一个极具说服力的答案。
ArXiv URL:arxiv.org/abs/2604.12…
Nemotron 3 Super 是一个拥有 1200 亿总参数,但每次前向传播仅激活 120 亿参数的混合专家(MoE)模型。 它最引人注目的成果是,在主流基准测试中取得了与 GPT-OSS-120B 和 Qwen3.5-122B 等同量级模型相当的准确率,同时在特定配置下,其推理吞吐量分别达到了后两者的 2.2 倍和 7.5 倍。 这一飞跃式的效率提升,得益于其架构层面的三大核心创新:Mamba-Transformer 混合架构、名为 LatentMoE 的新型混合专家机制,以及用于原生推测解码的 MTP(多令牌预测)技术。
更重要的是,英伟达此次不仅发布了模型,还将其预训练、后训练、量化后的多个版本检查点,以及关键的训练数据集和方法论悉数开源,为社区探索高效大模型架构提供了宝贵的资源。
融合 Mamba 与 Transformer 的混合架构
传统 Transformer 架构的核心是自注意力(Self-Attention)机制,它能出色地捕捉全局依赖关系,但其计算和内存复杂度会随序列长度呈二次方增长。这使得它在处理长达百万 Token 的上下文时,KV 缓存会成为巨大的系统瓶颈。近年来,以 Mamba 为代表的状态空间模型(SSM)因其线性复杂度和恒定的推理状态大小而备受关注,被视为解决长上下文效率问题的有力竞争者。
Nemotron 3 Super 没有在两者之间做非此即彼的选择,而是将它们巧妙地融合在一起。 其架构主体由 Mamba-2 模块构成,利用其高效的序列处理能力来降低大部分计算层的内存开销和延迟。 同时,为了保留 Transformer 强大的全局信息整合能力,模型中周期性地插入了少量标准的注意力层作为“全局锚点”。
这种混合交错的设计,旨在汲取 Mamba 的效率和 Transformer 的能力,在长上下文推理和模型性能之间取得平衡,尤其适合需要处理海量信息的 Agent 应用场景。
LatentMoE:更精打细算的“专家问诊”
混合专家(MoE)架构通过将模型参数分散到多个“专家”网络中,并在每次计算时仅激活其中一小部分,成功地在扩大模型规模的同时控制了计算量(FLOPs)。然而,传统的 MoE 设计主要关注计算效率,却忽视了内存带宽、通信开销等同样关键的硬件瓶颈。当一个 Token 需要向多个专家“问诊”时,所产生的数据通信和权重加载成本依然相当可观。
为此,Nemotron 3 Super 引入了一种全新的 LatentMoE(潜在混合专家)架构,其核心思想是在一个更低维的“潜在空间”中完成专家的选择和计算。
具体来说,它分为三步:
-
降维:每个输入的 Token 表示 会先通过一个可学习的矩阵 被投影到一个维度更低的潜在空间 中。
-
潜在空间计算:路由(Gating)网络和所有专家网络都在这个低维的 空间中进行运算。
-
升维:专家们的输出结果聚合后,再通过另一个可学习的矩阵 投影回原始的 维空间。
这样做的好处是显而易见的。由于专家计算和节点间的 All-to-All 通信都在低维空间进行,单个专家的权重负载和通信数据量都减少了 倍。模型将由此节省下来的硬件预算,用来增加专家的总数和每个 Token 激活的专家数量(Top-K),最终在相似的计算和通信成本下,换取了更高的模型质量。 LatentMoE 是一种对硬件更友好的设计,它优化的不仅仅是“每 FLOP 的准确率”,更是“每字节参数的准确率”。
MTP:无需草稿模型的原生推测解码
为了进一步提升推理速度,Nemotron 3 Super 内置了多令牌预测(Multi-Token Prediction, MTP)功能,这是一种实现原生推测解码的有效方式。
推测解码的基本原理是,先用一个计算开销小的“草稿模型”快速生成一段候选文本(例如 7 个 Token),然后让主模型一次性地验证这 7 个 Token,而不是传统地逐个生成。如果草稿质量高,主模型可能一次性接受多个 Token,从而大幅减少总的解码步数。但这种方法通常需要维护一个独立的草稿模型,增加了部署的复杂性。
MTP 的巧妙之处在于,它让模型在训练时就学会同时预测未来多个位置的 Token。 Nemotron 3 Super 并非为每个未来位置都训练一个独立的预测头,而是让多个 MTP 头共享参数。这种设计使得最终形成了一个统一且更鲁棒的预测头,它在推理时可以被递归调用,以自回归的方式生成更长的草稿序列,并且拥有更稳定的接受率。
实验证明,MTP 带来了显著的吞吐量提升。在 SPEED-Bench 基准测试中,开启 MTP 后,模型的用户吞吐量(User Throughput)远高于关闭 MTP 的情况,证明了其在实际应用中的加速效果。
极致效率工程与开放生态
Nemotron 3 Super 的高效不仅体现在架构创新上,也贯穿于其工程实践中。它是首批在 NVFP4 这种极低精度格式下完成大规模预训练的模型之一。 在 25 万亿 Token 的海量数据上进行训练,证明了在低精度下进行稳定且准确的预训练是完全可行的,这为未来在有限的硬件资源上训练更大模型铺平了道路。
模型的训练数据策略也颇具匠心。25 万亿 Token 的预训练分为两个阶段:前 80%(20T)侧重于数据的多样性和广泛覆盖,后 20%(5T)则聚焦于高质量数据,以提升模型在各项基准测试上的表现。此外,英伟达还为此专门构建并开源了一系列高质量合成数据集,用于增强模型在代码、逻辑、经济学等领域的特定能力。
在强大的基础模型之上,Nemotron 3 Super 经过了以 Agent 能力为核心的系统性后训练,包括监督微调(SFT)和多阶段的强化学习(RL),使其具备了强大的多步工具使用和复杂任务执行能力。
最终,Nemotron 3 Super 在性能和效率上交出了一份亮眼的答卷。它不仅在准确性上与同类大型号模型看齐,更在推理效率上实现了数倍的超越,同时支持高达 100 万 Token 的上下文长度。
总而言之,Nemotron 3 Super 的发布,不仅仅是开源社区又多了一个强大的基础模型。它更像一份关于如何构建下一代高效大语言模型的技术蓝图。通过 Mamba-Transformer 混合架构、硬件感知的 LatentMoE 和原生的 MTP 加速,它为业界展示了在不牺牲性能的前提下,大幅优化推理成本的有效路径。英伟达将其模型、数据与方法论全面开放的举措,无疑将推动整个 AI 社区向着更高效、更普惠的未来迈进。