MiniMax-M2.7 实测

0 阅读7分钟

MiniMax在M2.5发布一个月之后,紧接着推出了MiniMax M2.7。这一次,MiniMax走了一条与众不同的路线——官方宣称M2.7是第一个”深度参与迭代自己”的模型,核心卖点直指Agent能力的边界拓展:自行构建复杂Agent Harness、驱动自身强化学习、完成端到端的软件工程交付。在SWE-Pro上取得56.22%的成绩,接近Opus最好水平;在GDPval-AA中ELO得分达到1495,为开源最高。

需要说明的是,本次评测侧重中文场景下的综合能力考察,而M2.7的核心升级方向——包括复杂Agent Harness构建、真实软件工程(SWE-Pro、VIBE-Pro、Terminal Bench 2)、专业办公交付(GDPval-AA)以及多智能体协作(Agent Teams)等能力,在当前的中文评测框架中尚无法充分体现。读者可参考文末官方评测数据,获得对M2.7完整能力的更全面了解。

MiniMax-M2.7版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):67.7%
  • 平均耗时(每次调用):87s
  • 平均token(每次调用消耗的token):4044
  • 平均花费(每千次调用的人民币花费):32.4

1、新旧对决:Agent能力的定向突破

对比上一代版本(MiniMax-M2.5),M2.7的变化更多体现在特定维度的定向突破而非全面铺开,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 整体性能稳步提升:新版本准确率从65.7%提升至67.7%,提升了2.0个百分点,排名从第54位升至第35位,提升了19个位次。
  • Agent与工具调用提升最为显著:从66.5%提升至75.8%(+9.3%),这是所有维度中提升幅度最大的领域,与M2.7主打的Agent能力定位高度吻合。模型在复杂工具调用和多步骤任务编排上的进步十分明显。
  • 教育领域有所改善:从42.3%提升至43.8%(+1.5%),虽然幅度不大,但作为M2.5的短板之一,这一方向的改善值得关注。
  • 语言与指令遵从小幅提升:从59.0%提升至59.6%(+0.6%),基本持平,表明模型在中文指令理解上的变化不大。
  • 部分领域出现回调:值得注意的是,“医疗与心理健康”从73.7%降至72.2%(-1.5%),“金融”从71.2%降至70.2%(-1.0%),“法律与行政公务”从77.0%降至74.7%(-2.3%),“推理与数学计算”从71.2%降至70.9%(-0.3%)。多个传统强势领域出现不同程度的回调,反映出模型在本次迭代中将更多资源倾斜到了Agent与工具调用等新兴能力上,存在一定的能力取舍。
  • 响应时间有所延长:平均耗时从53s增加至87s,增幅约64%。结合平均Token消耗从3307增至4044(+22%),模型在输出前进行了更多的推演,但幅度远不及豆包Seed 2.0 Pro那样的”慢思考”模式,更像是在推理深度上做了适度加强。
  • 调用成本上升:每千次调用的费用从26.3元增至32.4元,成本上涨约23%。在输出价格保持8.4元/百万token不变的情况下,成本增加主要由Token消耗增长驱动。考虑到Agent维度9.3个百分点的显著提升,这一成本变化在合理范围内。

2、横向对比:Agent强手的中文实力几何

在当前主流大模型竞争格局中,MiniMax-M2.7作为一款主打Agent和软件工程能力的模型表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 中高端区间的竞争压力:在30至40元/千次的成本区间内,MiniMax-M2.7(67.7%,32.4元)面临一定的竞争压力。同处该区间的gpt-5-2025-08-07(68.9%,31.9元)和GLM-4.6(68.1%,37.6元)在准确率上均略高于M2.7,且gpt-5-2025-08-07的花费还略低。
  • 向上对比仍有差距:与成本更高的gpt-5.4-high(72.6%,122.3元)、claude-opus-4.6(70.5%,96.5元)等旗舰模型相比,M2.7在准确率上存在明显差距,但这些模型的调用成本也高出数倍,定位层级本就不同。
  • 向下对比有替代方案:值得关注的是,同厂的MiniMax-M2.5(65.7%,26.3元)以更低的成本提供了接近的准确率,两者差距仅2.0个百分点,但花费低了约19%。对于对成本敏感但不强调Agent能力的场景,M2.5仍是一个不错的选择。
  • 特别值得一提的是,M2.7在Agent与工具调用维度(75.8%)的表现在整个榜单中处于中上水平,这与其主打Agent能力的定位相符。对于侧重工具调用和复杂任务编排的应用场景,M2.7的这一差异化优势不应被忽视。

新旧模型对比

  • MiniMax自身迭代路径清晰:从MiniMax-M2.1(63.6%,第70位)到MiniMax-M2.5(65.7%,第54位),再到MiniMax-M2.7(67.7%,第35位),MiniMax每一代的迭代都保持了稳定的进步节奏,产品线的成长轨迹是清晰的。
  • 与其他厂商新模型仍有差距:在榜单头部,Doubao-Seed-2.0-pro(76.5%)、gemini-3.1-pro-preview(74.8%)、qwen3.5-plus(74.6%)牢牢占据前三。与这些新一代旗舰相比,M2.7的中文综合能力尚有较大的追赶空间。不过,M2.7的核心战场在Agent和软件工程,中文综合评测仅是其能力版图的一个切面。
  • 同代际模型的定位分化:在60至70分区间内聚集了大量模型,如qwen3-max-2026-01-23(67.6%)、gpt-5.3-chat(70.6%)等,竞争十分激烈。M2.7在这一区间中处于中游位置,但考虑到其Agent维度的突出表现,在特定场景下的实际价值可能高于总分所反映的水平。

开源VS闭源对比

  • 闭源阵营的一员:MiniMax-M2.7归属于商用闭源模型阵营。在闭源模型中,其准确率位于中段,与gpt-5.3-chat(70.6%)、claude-sonnet-4.5-thinking(68.8%)等国际闭源模型存在一定差距。
  • 开源模型的追赶:开源阵营中,qwen3.5-plus(74.6%)、Qwen3.5-122B-A10B(74.0%)、GLM-4.7(71.5%)、Kimi-K2.5-Thinking(71.3%)等模型在总分上均超过了M2.7,且部分开源模型的调用成本更低。开源力量在中文综合能力上的表现十分强劲。
  • 差异化竞争路径:M2.7选择了一条不同的路径,将重心放在Agent能力、软件工程、多智能体协作等新兴方向上。这类能力在实际生产力场景中可能更具商业价值。

3、官方评测

MiniMax官方在发布M2.7时,重点展示了模型在软件工程、专业办公和互动娱乐三大方向上的能力。以下是官方公布的主要基准测试数据:

软件工程能力

M2.7 在真实的软件工程中有优异的表现,包括端到端的完整项目交付,分析日志排查 Bug、代码安全,机器学习等。在基准测试 SWE-Pro 中,M2.7 得分56.22%,几乎接近Opus最好的水平。这一能力同样延伸到了端到端的完整项目交付场景(VIBE-Pro 55.6%)以及对复杂工程系统的深层理解Terminal Bench 2(57.0%)

专业办公能力

在 GDPval-AA 的ELO得分是1495,为开源最高。M2.7 对 Office 三件套 Excel/PPT/Word 的复杂编辑能力显著提升,能更好地完成多轮修改和高保真的编辑。M2.7具备与复杂环境交互的能力,M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上,仍能保持 97% 的 skills 遵循率。在OpenClaw的使用中,M2.7相比于M2.5也有了显著的提升,在MMClaw的评测中接近最新的Sonnet 4.6。

自我进化能力

官方设计和实现了一个简易的脚手架来引导 Agent 进行自主优化,核心的模块包括短时记忆、自反馈以及自优化三个模块。具体来讲,Agent 完成每轮迭代后会形成一个短时记忆文件,同时对当前轮次的结果进行自反馈,从而给下一轮次提供潜在的优化方向,下一轮次基于所有历史轮次的记忆及自反馈链进行下一步的自优化。总共测试了三次,每次有 24 小时来迭代进化,从图中能够看到 M2.7 随时间不断取得更高的性能。最好的一次取得 9 枚金牌,5 枚银牌,1枚铜牌。三次平均是 66.6% 的得牌率,此成绩仅次于Opus-4.6 (75.7%)、GPT-5.4 (71.2%),和 Gemini-3.1 (66.6%) 持平。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear