MiniMax-M2.7 实测MiniMax发布M2.7，主打Agent能力，宣称可“自我进化”并完成软件工程。评测显示

MiniMax在M2.5发布一个月之后，紧接着推出了MiniMax M2.7。这一次，MiniMax走了一条与众不同的路线——官方宣称M2.7是第一个”深度参与迭代自己”的模型，核心卖点直指Agent能力的边界拓展：自行构建复杂Agent Harness、驱动自身强化学习、完成端到端的软件工程交付。在SWE-Pro上取得56.22%的成绩，接近Opus最好水平；在GDPval-AA中ELO得分达到1495，为开源最高。

需要说明的是，本次评测侧重中文场景下的综合能力考察，而M2.7的核心升级方向——包括复杂Agent Harness构建、真实软件工程（SWE-Pro、VIBE-Pro、Terminal Bench 2）、专业办公交付（GDPval-AA）以及多智能体协作（Agent Teams）等能力，在当前的中文评测框架中尚无法充分体现。读者可参考文末官方评测数据，获得对M2.7完整能力的更全面了解。

MiniMax-M2.7版本表现：

测试题数：约1.5万
总分（准确率）：67.7%
平均耗时（每次调用）：87s
平均token（每次调用消耗的token）：4044
平均花费（每千次调用的人民币花费）：32.4

1、新旧对决：Agent能力的定向突破

对比上一代版本（MiniMax-M2.5），M2.7的变化更多体现在特定维度的定向突破而非全面铺开，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

整体性能稳步提升：新版本准确率从65.7%提升至67.7%，提升了2.0个百分点，排名从第54位升至第35位，提升了19个位次。
Agent与工具调用提升最为显著：从66.5%提升至75.8%（+9.3%），这是所有维度中提升幅度最大的领域，与M2.7主打的Agent能力定位高度吻合。模型在复杂工具调用和多步骤任务编排上的进步十分明显。
教育领域有所改善：从42.3%提升至43.8%（+1.5%），虽然幅度不大，但作为M2.5的短板之一，这一方向的改善值得关注。
语言与指令遵从小幅提升：从59.0%提升至59.6%（+0.6%），基本持平，表明模型在中文指令理解上的变化不大。
部分领域出现回调：值得注意的是，“医疗与心理健康”从73.7%降至72.2%（-1.5%），“金融”从71.2%降至70.2%（-1.0%），“法律与行政公务”从77.0%降至74.7%（-2.3%），“推理与数学计算”从71.2%降至70.9%（-0.3%）。多个传统强势领域出现不同程度的回调，反映出模型在本次迭代中将更多资源倾斜到了Agent与工具调用等新兴能力上，存在一定的能力取舍。
响应时间有所延长：平均耗时从53s增加至87s，增幅约64%。结合平均Token消耗从3307增至4044（+22%），模型在输出前进行了更多的推演，但幅度远不及豆包Seed 2.0 Pro那样的”慢思考”模式，更像是在推理深度上做了适度加强。
调用成本上升：每千次调用的费用从26.3元增至32.4元，成本上涨约23%。在输出价格保持8.4元/百万token不变的情况下，成本增加主要由Token消耗增长驱动。考虑到Agent维度9.3个百分点的显著提升，这一成本变化在合理范围内。

2、横向对比：Agent强手的中文实力几何

在当前主流大模型竞争格局中，MiniMax-M2.7作为一款主打Agent和软件工程能力的模型表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

中高端区间的竞争压力：在30至40元/千次的成本区间内，MiniMax-M2.7（67.7%，32.4元）面临一定的竞争压力。同处该区间的gpt-5-2025-08-07（68.9%，31.9元）和GLM-4.6（68.1%，37.6元）在准确率上均略高于M2.7，且gpt-5-2025-08-07的花费还略低。
向上对比仍有差距：与成本更高的gpt-5.4-high（72.6%，122.3元）、claude-opus-4.6（70.5%，96.5元）等旗舰模型相比，M2.7在准确率上存在明显差距，但这些模型的调用成本也高出数倍，定位层级本就不同。
向下对比有替代方案：值得关注的是，同厂的MiniMax-M2.5（65.7%，26.3元）以更低的成本提供了接近的准确率，两者差距仅2.0个百分点，但花费低了约19%。对于对成本敏感但不强调Agent能力的场景，M2.5仍是一个不错的选择。
特别值得一提的是，M2.7在Agent与工具调用维度（75.8%）的表现在整个榜单中处于中上水平，这与其主打Agent能力的定位相符。对于侧重工具调用和复杂任务编排的应用场景，M2.7的这一差异化优势不应被忽视。

新旧模型对比

MiniMax自身迭代路径清晰：从MiniMax-M2.1（63.6%，第70位）到MiniMax-M2.5（65.7%，第54位），再到MiniMax-M2.7（67.7%，第35位），MiniMax每一代的迭代都保持了稳定的进步节奏，产品线的成长轨迹是清晰的。
与其他厂商新模型仍有差距：在榜单头部，Doubao-Seed-2.0-pro（76.5%）、gemini-3.1-pro-preview（74.8%）、qwen3.5-plus（74.6%）牢牢占据前三。与这些新一代旗舰相比，M2.7的中文综合能力尚有较大的追赶空间。不过，M2.7的核心战场在Agent和软件工程，中文综合评测仅是其能力版图的一个切面。
同代际模型的定位分化：在60至70分区间内聚集了大量模型，如qwen3-max-2026-01-23（67.6%）、gpt-5.3-chat（70.6%）等，竞争十分激烈。M2.7在这一区间中处于中游位置，但考虑到其Agent维度的突出表现，在特定场景下的实际价值可能高于总分所反映的水平。

开源VS闭源对比

闭源阵营的一员：MiniMax-M2.7归属于商用闭源模型阵营。在闭源模型中，其准确率位于中段，与gpt-5.3-chat（70.6%）、claude-sonnet-4.5-thinking（68.8%）等国际闭源模型存在一定差距。
开源模型的追赶：开源阵营中，qwen3.5-plus（74.6%）、Qwen3.5-122B-A10B（74.0%）、GLM-4.7（71.5%）、Kimi-K2.5-Thinking（71.3%）等模型在总分上均超过了M2.7，且部分开源模型的调用成本更低。开源力量在中文综合能力上的表现十分强劲。
差异化竞争路径：M2.7选择了一条不同的路径，将重心放在Agent能力、软件工程、多智能体协作等新兴方向上。这类能力在实际生产力场景中可能更具商业价值。

3、官方评测

MiniMax官方在发布M2.7时，重点展示了模型在软件工程、专业办公和互动娱乐三大方向上的能力。以下是官方公布的主要基准测试数据：

软件工程能力

M2.7 在真实的软件工程中有优异的表现，包括端到端的完整项目交付，分析日志排查 Bug、代码安全，机器学习等。在基准测试 SWE-Pro 中，M2.7 得分56.22%，几乎接近Opus最好的水平。这一能力同样延伸到了端到端的完整项目交付场景（VIBE-Pro 55.6%）以及对复杂工程系统的深层理解Terminal Bench 2（57.0%）

专业办公能力

在 GDPval-AA 的ELO得分是1495，为开源最高。M2.7 对 Office 三件套 Excel/PPT/Word 的复杂编辑能力显著提升，能更好地完成多轮修改和高保真的编辑。M2.7具备与复杂环境交互的能力，M2.7 在 40 个复杂 skills (> 2000 Token) 的 case 上，仍能保持 97% 的 skills 遵循率。在OpenClaw的使用中，M2.7相比于M2.5也有了显著的提升，在MMClaw的评测中接近最新的Sonnet 4.6。

自我进化能力

官方设计和实现了一个简易的脚手架来引导 Agent 进行自主优化，核心的模块包括短时记忆、自反馈以及自优化三个模块。具体来讲，Agent 完成每轮迭代后会形成一个短时记忆文件，同时对当前轮次的结果进行自反馈，从而给下一轮次提供潜在的优化方向，下一轮次基于所有历史轮次的记忆及自反馈链进行下一步的自优化。总共测试了三次，每次有 24 小时来迭代进化，从图中能够看到 M2.7 随时间不断取得更高的性能。最好的一次取得 9 枚金牌，5 枚银牌，1枚铜牌。三次平均是 66.6% 的得牌率，此成绩仅次于Opus-4.6 (75.7%)、GPT-5.4 (71.2%)，和 Gemini-3.1 (66.6%) 持平。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear