MiniMax M3 真的要来了！深度解析MiniMax M2.7官方技术报告：M2已逼近天花板，M3会强到什么程度？

仅10亿激活参数，在20多项AI基准测试上全面对标甚至超越GPT、Claude、Gemini等千亿参数闭源模型——这听起来像科幻小说，但MiniMax-M2.7实实在在地做到了。更让人震惊的是，这款开放权重的模型家族不仅在编码、推理、知识等传统任务上表现惊艳，更在Agent编程、深度搜索、办公自动化等真实世界场景中展现出惊人的竞争力。它到底施了什么魔法？今天，我们就来彻底拆解这座“小身材大能量”的技术宝库。

论文链接：arxiv.org/abs/2605.26…
原文链接：MiniMax M3 真的要来了！深度解析MiniMax M2.7官方技术报告：M2已逼近天花板，M3会强到什么程度？
B站原创视频解读：MiniMax M3 真的要来了！深度解析MiniMax M2.7官方技术报告：M2已逼近天花板，M3会强到什么程度？

先来看一张最能说明问题的数据图：

图：MiniMax-M2.7在8个Agent基准上与闭源前沿模型的性能对比。仅约10B激活参数，却在SWE Bench Pro、Multi-SWE Bench等多个任务上达到或超越Sonnet 4.6、Opus 4.6等千亿级模型，效率优势一目了然。

为什么大模型参数量越来越大，但实际能做的事却越来越“虚胖”？根源在于：参数量不等于智能量。大多数模型推理时激活全部参数，计算量和显存消耗与参数规模线性增长，导致部署成本极高。而混合专家（MoE）架构通过只激活一小部分参数来缓解这一问题，但传统MoE设计在专家数量和路由效率上仍有瓶颈。MiniMax-M2系列给出了一个“极致版”答案：总参数229.9B，但每次只激活9.8B（不到4.3%），却在代码智能、深度搜索、办公自动化等真实世界Agent任务上逼近最强闭源系统。这个看似矛盾的结果背后，是三个端到端核心组件的协同发力：Agent驱动的数据管线、可扩展的Agent原生强化学习系统Forge，以及模型自身的自进化能力。下面逐层拆解。

架构揭秘：229B参数，9.8B激活的极致压缩

M2的底层架构是62层decoder-only Transformer，隐藏维度3072，词汇表200064，预训练在29.2T tokens上完成，原生上下文长度192K。架构关键在MoE前馈网络：256个细粒度专家，每个token激活8个。这里有两个核心创新。

细粒度专家。作者采用Dai等人2024年提出的“细粒度专家”策略：不是使用少量大专家，而是用大量小专家（256个，每个专家FFN维度大幅减小）。这种设计提升了路由的组合多样性，并降低了不同专家间的负载方差。实验表明，在固定激活参数2B的条件下，细粒度专家相比Baseline在MATH上从19.6提升到24.1，在HumanEval上从29.7提升到32.5（见下表）。

表：细粒度专家和MTP模块的消融实验。在2B激活、17.8B总参数设置下，细粒度专家在除KorBench外的所有任务上显著优于Baseline。

Sigmoid门控。与传统softmax top-k门控不同，M2使用sigmoid门控给每个专家独立激活分数，消除了softmax的零和约束，使得多个专家可以同时高置信度激活，路由动态更平滑。同时引入可学习的专家偏差项，隐式调节负载均衡，大幅减少辅助损失依赖。

全注意力的坚持。在注意力机制上，M2选择了最“笨”但最稳的方案：全多头注意力（48 query heads, 8 KV heads, GQA）。作者在论文中花了大量篇幅解释为什么放弃混合滑动窗口注意力（SWA）。尽管SWA在MMLU、MATH等标准基准上与全注意力持平，但在长上下文场景和复杂Agent任务中，SWA的缺陷暴露无遗

表：预训练阶段，全注意力基线 vs 混合SWA。在HELMET ICL、RULER 128K长上下文检索任务上，SWA显著落后全注意力。

表：SFT后，混合SWA在GPQA-Diamond、MMLU-Pro及多数Agent基准上落后全注意力，仅在IFBench、XBench-ds等短上下文任务上持平或略优。

这表明，在当前基础设施和评估体系下，全注意力仍然是长上下文Agent任务最可靠的选择。作者也坦言，随着上下文长度指数增长，次二次注意力是未来方向，但当前更看重稳定交付。

多Token预测（MTP）。M2引入MTP模块（如图2），在预训练时同时预测未来K个token。该模块在推理时作为推测解码的草稿模型，大幅提升生成吞吐量。预训练阶段使用K=1，损失权重从0.3退火到0.1；在继续预训练阶段通过权重复制扩展到K=3（三个MTP模块），支持多步投机解码。

图：M2的多Token预测架构。左侧主模型标准化输出，右侧并行MTP模块分别预测后续token序列，通过权重复制初始化，共享Embedding与Output Head。

数据炼金术：让Agent在真实世界里摸爬滚打

模型能力的天花板很大程度由训练数据决定。M2系列的数据管线设计核心思想是：每条训练轨迹都必须来自可验证的真实场景。作者构建了三个主要的数据生成管道。

Agent编码数据。针对软件工程（SWE）任务，作者设计了SWE-Scaling Pipeline：从GitHub拉取Pull Request，构建可运行的Docker环境，进行PR分类（bug fix、feature add等），提取Fail-to-Pass和Pass-to-Pass测试用例作为可验证Reward。这一管道覆盖十几门编程语言，生成的问题描述、Docker环境、测试用例三位一体的高质量数据。对于从头构建应用的AppDev任务，作者采用专家在环的合成方式：领域专家定义元Query，然后进行Query采样、去重，再通过Agent作为验证者（AaaV）框架在沙盒中执行轨迹，从执行层、交互层、视觉美学层三层验证。

图：SWE和AppDev数据构建流水线。SWE侧从GitHub PR出发，经过环境构建、路由、验证、增强最终产出可验证数据集；AppDev侧从专家参与开始，通过查询采样、轨迹蒸馏、多层Reward验证。

Agent协同数据。包括深度搜索、办公任务、金融分析、幻灯片生成。每个领域共享相同的设计：任务在真实可运行的工作空间上实例化，轨迹从强教师模型蒸馏，接受标准基于产物格式的可验证信号。例如深度搜索任务，每个合成问题都配有一份明确的证据规范，只有答案确实基于检索到的证据而非模型记忆的轨迹才被接受。

推理与通用数据。推理数据通过Query端、响应端、训练侧三个维度的扩展来生成，并配备严格的质量保证。通用对话和写作数据覆盖长链思维推理，为后续RL提供冷启动基础。

强化学习系统Forge：让Agent在长时域轨迹中自主进化

传统RL训练Agent面临“不可能三角”：系统吞吐量、训练稳定性、Agent灵活性三者难以兼顾。Forge系统通过三层解耦架构解决这一矛盾。

图：Forge RL系统架构。Agent侧（白盒/黑盒）、中间件（Gateway Server + Data Pool）、引擎侧（Rollout Engine + Train Engine）三层解耦，实现独立扩展。

窗口FIFO调度。Agent轨迹的完成时间差异极大，从几秒到数小时。严格FIFO会导致队头阻塞，完全贪婪调度会破坏分布一致性。Forge提出窗口FIFO：在滑动窗口内允许乱序完成，跨窗口严格执行FIFO。窗口大小W=0.3N时，显著减少空闲时间且保持分布稳定。

图：窗口FIFO调度机制。窗口内允许自由完成顺序（缓解队头阻塞），跨窗口严格FIFO（保持分布一致）。

前缀树合并。多轮Agent轨迹中，同一rollout组内的训练样本常共享大量前缀。传统做法独立计算每个样本的前向传播，造成大量冗余。Forge将共享前缀合并为树结构，在前向传播时只计算一次，在损失计算前解树恢复为独立样本，实现与独立训练数学等价但加速高达40倍。

图：前缀树合并机制。共享前缀仅计算一次，通过分支到独立响应片段，消除冗余前向计算。

白盒与黑盒Agent支持。Forge通过统一的Gateway抽象，同时支持白盒Agent（暴露上下文管理逻辑，可反向传播）和黑盒Agent（仅收集外部可见的(s_t, a_t, o_t)元组），覆盖从简单scaffold到复杂多Agent系统的全范围。

推理加速。结合MTP推测解码、异构预填充-解码分离、全局L3 KV缓存池，最大化生成吞吐量。

交错思考：让推理与行动共舞

M2提出了交错思考机制，将推理（Thinking）、内容（Content）与工具调用（Tool Calling）交错编排，而非传统的先思考再行动或无状态逐轮推理。这种设计在每个时间步实现“计划-行动-反思”循环，模型可以基于最新观察修正计划、更新假设，并通过完整的推理历史实现自我纠正。

图：三种推理模式对比。左侧无思考直接工具调用；中间扩展思考后工具调用；右侧交错思考将Thinking、Content、Tool Calling、Tool Response交错编排，支持Plan-Act-Reflect循环。

自我进化：模型主动改进自己的训练

M2.7展示了一种早期的自我进化能力：模型自主调试训练流程、修改配置文件、迭代数百轮。作者开发了模型迭代系统（图8A），人类配置目标并审查输出，Agent在Harness内执行（该Harness完全由M2.7模型自身生成）。RL团队通过双循环工作流（图8B）与系统协作：人类主导计划，Agent自主执行、分析、报告，人类审查后触发下一轮迭代。在内部编程scaffold优化任务中，M2.7执行了100轮完全自主循环，发现循环检测等机制并找出更优参数组合，内部评估提升30%。这一能力在MLE Bench Lite上得到验证：M2.7以66.6%的奖牌率与Gemini 3.1 Pro并列，且通过自主批评和迭代实现了渐进式提升。

图：模型迭代系统（A）与RL团队双循环工作流（B）。人类配置引导、Agent自主执行、分析报告形成闭环。

实验验证：数据面前，一切设计回归理性

M2.7的成绩在表4中大范围展现。

表：MiniMax-M2.7与闭源前沿基线及M2.5的跨领域性能对比。在52项基准中，M2.7在Multi-SWE-bench、AIME 2026、GPQA-Diamond等任务上达到或超越最强闭源模型。

以下重点解读五个关键领域：

软件工程Agent：SWE-bench Pro 56.2（Sonnet 57.2），Multi-SWE-bench 52.7（超越所有闭源基线），Terminal-Bench 2.0 57.0。
应用开发：VIBE-Pro 55.6，HyperTask 67.6。
深度搜索：BrowseComp 77.8，Wide Search 75.2。
工具与办公：GDPval-AA 50.0，Toolathlon 46.3，MEWC v2 63.3。
推理与知识：AIME 2026 94.2，GPQA-Diamond 89.8，IFBench 76.0，AA-LCR 72.0。

系列进展同样引人注目。图9展示了从M2到M2.5到M2.7的持续提升：深度搜索增益最大（BrowseComp +33.8），推理稳步增长（AIME +16.0），工具使用急升（Toolathlon +27.5）。

图：M2系列能力演进。从M2到M2.7，所有11个基准均提升，深度搜索和工具使用增益最大。

图：M2.7在MLE Bench Lite上的奖牌率随累积有效运行时间变化。通过迭代试验，模型自主调试和修改框架，在计算预算扩展中持续提升表现。

客观评价与展望

M2系列也并非完美。在设计选择上，坚持全注意力意味着在长上下文场景下计算开销较高，作者也承认这是当前阶段权衡的结果——混合SWA虽然理论上高效，但在真实Agent场景中质量不足。此外，M2.7在某些基准（如Toolathlon、GDPval-AA）上仍与最强闭源模型有差距，说明工具使用和异构任务泛化还有提升空间。

但M2系列最大的价值在于展示了”小激活”路线的可行性：通过极致的架构优化（细粒度专家、门控）、数据管线（可验证轨迹）和RL系统（Forge），仅10B激活就能接近千亿参数模型的真实世界智能。这对降低部署成本、推动开放权重模型在Agent场景落地具有里程碑意义。

如果你正在考虑如何用更少的资源在复杂Agent任务中实现高水平性能，M2的方法论——特别是Agent驱动的数据构建和Forge的稳定RL训练——值得深入研究。

🤔 深度思考： 你认为M2的“小激活”思路最可能颠覆哪个AI应用场景？是代码开发、办公自动化，还是端侧部署？欢迎在评论区分享你的观点！

💝 支持原创： 如果本文帮到你，点赞+收藏就是最好的支持！分享给身边的技术伙伴，一起探讨AI的落地之道。

#AI技术 #深度学习 #模型优化 #技术干货 #论文解读

参考

The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence