🔥 MiniMax M2.7 炸裂发布：模型能自己"生娃"了！

2026-03-19 127 阅读3分钟

📖 阅读时长：约 15 分钟
📝 类型：产品发布总结 / 推文记录
🎯 亮点：自我进化 | 软件工程逆天 | 办公神器

📢 核心速览

MiniMax M2.7 正式发布——这是 MiniMax 第一个深度参与自身迭代的模型，标志着 AI 模型的自我进化时代正式开启！

"除了更加认真工作之外，我们能找到的唯一途径就是开启模型和组织的自我进化。"

🚀 重磅亮点一：模型自我进化

M2.7 能够自行构建复杂的 Agent Harness，基于 Agent Teams、复杂 Skills、Tool Search 等能力，完成高度复杂的生产力任务。

具体表现：

✅ 在研发 M2.7 过程中，模型自己构建了强化学习 Harness 中的数十个复杂 Skills
✅ 更新自己的 memory
✅ 驱动模型自身的强化学习
✅ 基于结果优化强化学习过程和 Harness

简单来说：模型自己写代码优化自己，完成了超过 100 轮的迭代优化，最终效果提升 30%！

💻 重磅亮点二：软件工程能力炸裂

📊 基准测试成绩

评测集	M2.7 得分	对标水平
SWE-Pro	56.22%	追平 GPT-5.3-Codex
SWE Multilingual	76.5%	全球领先
Multi SWE Bench	52.7%	显著优势
VIBE-Pro (端到端项目交付)	55.6%	≈ Opus 4.6
Terminal Bench 2 (系统深层理解)	57.0%	国际一线水准
NL2Repo	39.8%	稳健表现

🐛 真实生产力场景

M2.7 已经可以独立完成线上生产环境故障调试：

关联监控指标与部署时间线做因果推理
对轨迹采样做统计分析并提出精准假设
主动连接数据库执行验证根因
定位代码仓库中缺失的索引迁移文件
知道用非阻塞建索引先止血，再提 MR

💡 基于 M2.7，多次将线上生产系统故障恢复时间缩短到 3 分钟以内！

📊 重磅亮点三：专业办公能力登顶

🏆 GDPval-AA 评测

ELO 得分：1495-1500（开源最高）
全球 45 个模型中排名第四，仅次于 Opus 4.6、Sonnet 4.6、GPT5.4

📄 Office 三件套

对 Excel/PPT/Word 的复杂编辑能力显著提升
能完成多轮修改和高保真编辑
在 40 个复杂 Skills（>2000 Token）的 case 上，仍能保持 97% 的 Skills 遵循率

💼 真实办公场景

在 Finance 领域，M2.7 已经可以：

自主阅读公司年报与业绩沟通会纪要
交叉核对多篇研报
独立设计假设并构建营收预测模型
产出可直接进入工作流程的 PPT 和研究报告

📢 从业者评价：产出物已经可以作为初稿直接进入后续工作流程！

🤖 重磅亮点四：Agent 社区生态

🏅 MMClaw 评测

M2.7 得分 62.7%，接近 Sonnet 4.6 水平
在 OpenClaw 常用任务评测中表现优异

🎮 互动娱乐新探索

发布了 OpenRoom 项目：

将 AI 互动置入万物皆可互动的 Web GUI 空间
对话即驱动，实时产生视觉反馈与场景交互
角色可以主动与环境交互

🔗 项目地址：github.com/MiniMax-AI/…
🎯 立即体验：openroom.ai

🏆 M2.7 在 MLE Bench Lite 的表现

参与 22 个机器学习任务测试，三次平均成绩：

成绩	数量
🥇 金牌	9 枚
🥈 银牌	5 枚
🥉 铜牌	1 枚
总得牌率	66.6%

全球排名：

Opus-4.6：75.7%
GPT-5.4：71.2%
MiniMax M2.7：66.6%（与 Gemini-3.1 持平）

📱 如何体验

平台	链接
MiniMax Agent	agent.minimaxi.com
API 服务	platform.minimaxi.com
Coding Plan 订阅	platform.minimaxi.com/subscribe/c…

💬 总结

MiniMax M2.7 的发布标志着 AI 模型从"工具"向"助手"再到"自我进化体"的跨越。无论是软件工程、专业办公还是互动娱乐，M2.7 都展现出了接近甚至匹敌国际一线大模型的实力。

"Intelligence with Everyone."

🔗 原文链接：www.minimaxi.com/news/minima…