仅10亿激活参数,在20多项AI基准测试上全面对标甚至超越GPT、Claude、Gemini等千亿参数闭源模型——这听起来像科幻小说,但MiniMax-M2.7实实在在地做到了。更让人震惊的是,这款开放权重的模型家族不仅在编码、推理、知识等传统任务上表现惊艳,更在Agent编程、深度搜索、办公自动化等真实世界场景中展现出惊人的竞争力。它到底施了什么魔法?今天,我们就来彻底拆解这座“小身材大能量”的技术宝库。
- 论文链接:arxiv.org/abs/2605.26…
- 原文链接:MiniMax M3 真的要来了!深度解析MiniMax M2.7官方技术报告:M2已逼近天花板,M3会强到什么程度?
- B站原创视频解读:MiniMax M3 真的要来了!深度解析MiniMax M2.7官方技术报告:M2已逼近天花板,M3会强到什么程度?
先来看一张最能说明问题的数据图:
图:MiniMax-M2.7在8个Agent基准上与闭源前沿模型的性能对比。仅约10B激活参数,却在SWE Bench Pro、Multi-SWE Bench等多个任务上达到或超越Sonnet 4.6、Opus 4.6等千亿级模型,效率优势一目了然。
为什么大模型参数量越来越大,但实际能做的事却越来越“虚胖”?根源在于:参数量不等于智能量。大多数模型推理时激活全部参数,计算量和显存消耗与参数规模线性增长,导致部署成本极高。而混合专家(MoE)架构通过只激活一小部分参数来缓解这一问题,但传统MoE设计在专家数量和路由效率上仍有瓶颈。MiniMax-M2系列给出了一个“极致版”答案:总参数229.9B,但每次只激活9.8B(不到4.3%),却在代码智能、深度搜索、办公自动化等真实世界Agent任务上逼近最强闭源系统。这个看似矛盾的结果背后,是三个端到端核心组件的协同发力:Agent驱动的数据管线、可扩展的Agent原生强化学习系统Forge,以及模型自身的自进化能力。下面逐层拆解。
架构揭秘:229B参数,9.8B激活的极致压缩
M2的底层架构是62层decoder-only Transformer,隐藏维度3072,词汇表200064,预训练在29.2T tokens上完成,原生上下文长度192K。架构关键在MoE前馈网络:256个细粒度专家,每个token激活8个。这里有两个核心创新。
细粒度专家。作者采用Dai等人2024年提出的“细粒度专家”策略:不是使用少量大专家,而是用大量小专家(256个,每个专家FFN维度大幅减小)。这种设计提升了路由的组合多样性,并降低了不同专家间的负载方差。实验表明,在固定激活参数2B的条件下,细粒度专家相比Baseline在MATH上从19.6提升到24.1,在HumanEval上从29.7提升到32.5(见下表)。
表:细粒度专家和MTP模块的消融实验。在2B激活、17.8B总参数设置下,细粒度专家在除KorBench外的所有任务上显著优于Baseline。
Sigmoid门控。与传统softmax top-k门控不同,M2使用sigmoid门控给每个专家独立激活分数,消除了softmax的零和约束,使得多个专家可以同时高置信度激活,路由动态更平滑。同时引入可学习的专家偏差项,隐式调节负载均衡,大幅减少辅助损失依赖。
全注意力的坚持。在注意力机制上,M2选择了最“笨”但最稳的方案:全多头注意力(48 query heads, 8 KV heads, GQA)。作者在论文中花了大量篇幅解释为什么放弃混合滑动窗口注意力(SWA)。尽管SWA在MMLU、MATH等标准基准上与全注意力持平,但在长上下文场景和复杂Agent任务中,SWA的缺陷暴露无遗
表:预训练阶段,全注意力基线 vs 混合SWA。在HELMET ICL、RULER 128K长上下文检索任务上,SWA显著落后全注意力。
表:SFT后,混合SWA在GPQA-Diamond、MMLU-Pro及多数Agent基准上落后全注意力,仅在IFBench、XBench-ds等短上下文任务上持平或略优。
这表明,在当前基础设施和评估体系下,全注意力仍然是长上下文Agent任务最可靠的选择。作者也坦言,随着上下文长度指数增长,次二次注意力是未来方向,但当前更看重稳定交付。
多Token预测(MTP)。M2引入MTP模块(如图2),在预训练时同时预测未来K个token。该模块在推理时作为推测解码的草稿模型,大幅提升生成吞吐量。预训练阶段使用K=1,损失权重从0.3退火到0.1;在继续预训练阶段通过权重复制扩展到K=3(三个MTP模块),支持多步投机解码。
图:M2的多Token预测架构。左侧主模型标准化输出,右侧并行MTP模块分别预测后续token序列,通过权重复制初始化,共享Embedding与Output Head。
数据炼金术:让Agent在真实世界里摸爬滚打
模型能力的天花板很大程度由训练数据决定。M2系列的数据管线设计核心思想是:每条训练轨迹都必须来自可验证的真实场景。作者构建了三个主要的数据生成管道。
Agent编码数据。针对软件工程(SWE)任务,作者设计了SWE-Scaling Pipeline:从GitHub拉取Pull Request,构建可运行的Docker环境,进行PR分类(bug fix、feature add等),提取Fail-to-Pass和Pass-to-Pass测试用例作为可验证Reward。这一管道覆盖十几门编程语言,生成的问题描述、Docker环境、测试用例三位一体的高质量数据。对于从头构建应用的AppDev任务,作者采用专家在环的合成方式:领域专家定义元Query,然后进行Query采样、去重,再通过Agent作为验证者(AaaV)框架在沙盒中执行轨迹,从执行层、交互层、视觉美学层三层验证。
图:SWE和AppDev数据构建流水线。SWE侧从GitHub PR出发,经过环境构建、路由、验证、增强最终产出可验证数据集;AppDev侧从专家参与开始,通过查询采样、轨迹蒸馏、多层Reward验证。
Agent协同数据。包括深度搜索、办公任务、金融分析、幻灯片生成。每个领域共享相同的设计:任务在真实可运行的工作空间上实例化,轨迹从强教师模型蒸馏,接受标准基于产物格式的可验证信号。例如深度搜索任务,每个合成问题都配有一份明确的证据规范,只有答案确实基于检索到的证据而非模型记忆的轨迹才被接受。
推理与通用数据。推理数据通过Query端、响应端、训练侧三个维度的扩展来生成,并配备严格的质量保证。通用对话和写作数据覆盖长链思维推理,为后续RL提供冷启动基础。
强化学习系统Forge:让Agent在长时域轨迹中自主进化
传统RL训练Agent面临“不可能三角”:系统吞吐量、训练稳定性、Agent灵活性三者难以兼顾。Forge系统通过三层解耦架构解决这一矛盾。
图:Forge RL系统架构。Agent侧(白盒/黑盒)、中间件(Gateway Server + Data Pool)、引擎侧(Rollout Engine + Train Engine)三层解耦,实现独立扩展。
窗口FIFO调度。Agent轨迹的完成时间差异极大,从几秒到数小时。严格FIFO会导致队头阻塞,完全贪婪调度会破坏分布一致性。Forge提出窗口FIFO:在滑动窗口内允许乱序完成,跨窗口严格执行FIFO。窗口大小W=0.3N时,显著减少空闲时间且保持分布稳定。
图:窗口FIFO调度机制。窗口内允许自由完成顺序(缓解队头阻塞),跨窗口严格FIFO(保持分布一致)。
前缀树合并。多轮Agent轨迹中,同一rollout组内的训练样本常共享大量前缀。传统做法独立计算每个样本的前向传播,造成大量冗余。Forge将共享前缀合并为树结构,在前向传播时只计算一次,在损失计算前解树恢复为独立样本,实现与独立训练数学等价但加速高达40倍。
图:前缀树合并机制。共享前缀仅计算一次,通过分支到独立响应片段,消除冗余前向计算。
白盒与黑盒Agent支持。Forge通过统一的Gateway抽象,同时支持白盒Agent(暴露上下文管理逻辑,可反向传播)和黑盒Agent(仅收集外部可见的(s_t, a_t, o_t)元组),覆盖从简单scaffold到复杂多Agent系统的全范围。
推理加速。结合MTP推测解码、异构预填充-解码分离、全局L3 KV缓存池,最大化生成吞吐量。
交错思考:让推理与行动共舞
M2提出了交错思考机制,将推理(Thinking)、内容(Content)与工具调用(Tool Calling)交错编排,而非传统的先思考再行动或无状态逐轮推理。这种设计在每个时间步实现“计划-行动-反思”循环,模型可以基于最新观察修正计划、更新假设,并通过完整的推理历史实现自我纠正。
图:三种推理模式对比。左侧无思考直接工具调用;中间扩展思考后工具调用;右侧交错思考将Thinking、Content、Tool Calling、Tool Response交错编排,支持Plan-Act-Reflect循环。
自我进化:模型主动改进自己的训练
M2.7展示了一种早期的自我进化能力:模型自主调试训练流程、修改配置文件、迭代数百轮。作者开发了模型迭代系统(图8A),人类配置目标并审查输出,Agent在Harness内执行(该Harness完全由M2.7模型自身生成)。RL团队通过双循环工作流(图8B)与系统协作:人类主导计划,Agent自主执行、分析、报告,人类审查后触发下一轮迭代。在内部编程scaffold优化任务中,M2.7执行了100轮完全自主循环,发现循环检测等机制并找出更优参数组合,内部评估提升30%。这一能力在MLE Bench Lite上得到验证:M2.7以66.6%的奖牌率与Gemini 3.1 Pro并列,且通过自主批评和迭代实现了渐进式提升。
图:模型迭代系统(A)与RL团队双循环工作流(B)。人类配置引导、Agent自主执行、分析报告形成闭环。
实验验证:数据面前,一切设计回归理性
M2.7的成绩在表4中大范围展现。
表:MiniMax-M2.7与闭源前沿基线及M2.5的跨领域性能对比。在52项基准中,M2.7在Multi-SWE-bench、AIME 2026、GPQA-Diamond等任务上达到或超越最强闭源模型。
以下重点解读五个关键领域:
- 软件工程Agent:SWE-bench Pro 56.2(Sonnet 57.2),Multi-SWE-bench 52.7(超越所有闭源基线),Terminal-Bench 2.0 57.0。
- 应用开发:VIBE-Pro 55.6,HyperTask 67.6。
- 深度搜索:BrowseComp 77.8,Wide Search 75.2。
- 工具与办公:GDPval-AA 50.0,Toolathlon 46.3,MEWC v2 63.3。
- 推理与知识:AIME 2026 94.2,GPQA-Diamond 89.8,IFBench 76.0,AA-LCR 72.0。
系列进展同样引人注目。图9展示了从M2到M2.5到M2.7的持续提升:深度搜索增益最大(BrowseComp +33.8),推理稳步增长(AIME +16.0),工具使用急升(Toolathlon +27.5)。
图:M2系列能力演进。从M2到M2.7,所有11个基准均提升,深度搜索和工具使用增益最大。
图:M2.7在MLE Bench Lite上的奖牌率随累积有效运行时间变化。通过迭代试验,模型自主调试和修改框架,在计算预算扩展中持续提升表现。
客观评价与展望
M2系列也并非完美。在设计选择上,坚持全注意力意味着在长上下文场景下计算开销较高,作者也承认这是当前阶段权衡的结果——混合SWA虽然理论上高效,但在真实Agent场景中质量不足。此外,M2.7在某些基准(如Toolathlon、GDPval-AA)上仍与最强闭源模型有差距,说明工具使用和异构任务泛化还有提升空间。
但M2系列最大的价值在于展示了”小激活”路线的可行性:通过极致的架构优化(细粒度专家、门控)、数据管线(可验证轨迹)和RL系统(Forge),仅10B激活就能接近千亿参数模型的真实世界智能。这对降低部署成本、推动开放权重模型在Agent场景落地具有里程碑意义。
如果你正在考虑如何用更少的资源在复杂Agent任务中实现高水平性能,M2的方法论——特别是Agent驱动的数据构建和Forge的稳定RL训练——值得深入研究。
🤔 深度思考: 你认为M2的“小激活”思路最可能颠覆哪个AI应用场景?是代码开发、办公自动化,还是端侧部署?欢迎在评论区分享你的观点!
💝 支持原创: 如果本文帮到你,点赞+收藏就是最好的支持!分享给身边的技术伙伴,一起探讨AI的落地之道。
#AI技术 #深度学习 #模型优化 #技术干货 #论文解读
参考
The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence