📖 阅读时长:约 15 分钟
📝 类型:产品发布总结 / 推文记录
🎯 亮点:自我进化 | 软件工程逆天 | 办公神器
📢 核心速览
MiniMax M2.7 正式发布——这是 MiniMax 第一个深度参与自身迭代的模型,标志着 AI 模型的自我进化时代正式开启!
"除了更加认真工作之外,我们能找到的唯一途径就是开启模型和组织的自我进化。"
🚀 重磅亮点一:模型自我进化
M2.7 能够自行构建复杂的 Agent Harness,基于 Agent Teams、复杂 Skills、Tool Search 等能力,完成高度复杂的生产力任务。
具体表现:
- ✅ 在研发 M2.7 过程中,模型自己构建了强化学习 Harness 中的数十个复杂 Skills
- ✅ 更新自己的 memory
- ✅ 驱动模型自身的强化学习
- ✅ 基于结果优化强化学习过程和 Harness
简单来说:模型自己写代码优化自己,完成了超过 100 轮的迭代优化,最终效果提升 30%!
💻 重磅亮点二:软件工程能力炸裂
📊 基准测试成绩
| 评测集 | M2.7 得分 | 对标水平 |
|---|---|---|
| SWE-Pro | 56.22% | 追平 GPT-5.3-Codex |
| SWE Multilingual | 76.5% | 全球领先 |
| Multi SWE Bench | 52.7% | 显著优势 |
| VIBE-Pro (端到端项目交付) | 55.6% | ≈ Opus 4.6 |
| Terminal Bench 2 (系统深层理解) | 57.0% | 国际一线水准 |
| NL2Repo | 39.8% | 稳健表现 |
🐛 真实生产力场景
M2.7 已经可以独立完成线上生产环境故障调试:
- 关联监控指标与部署时间线做因果推理
- 对轨迹采样做统计分析并提出精准假设
- 主动连接数据库执行验证根因
- 定位代码仓库中缺失的索引迁移文件
- 知道用非阻塞建索引先止血,再提 MR
💡 基于 M2.7,多次将线上生产系统故障恢复时间缩短到 3 分钟以内!
📊 重磅亮点三:专业办公能力登顶
🏆 GDPval-AA 评测
- ELO 得分:1495-1500(开源最高)
- 全球 45 个模型中排名第四,仅次于 Opus 4.6、Sonnet 4.6、GPT5.4
📄 Office 三件套
- 对 Excel/PPT/Word 的复杂编辑能力显著提升
- 能完成多轮修改和高保真编辑
- 在 40 个复杂 Skills(>2000 Token)的 case 上,仍能保持 97% 的 Skills 遵循率
💼 真实办公场景
在 Finance 领域,M2.7 已经可以:
- 自主阅读公司年报与业绩沟通会纪要
- 交叉核对多篇研报
- 独立设计假设并构建营收预测模型
- 产出可直接进入工作流程的 PPT 和研究报告
📢 从业者评价:产出物已经可以作为初稿直接进入后续工作流程!
🤖 重磅亮点四:Agent 社区生态
🏅 MMClaw 评测
- M2.7 得分 62.7%,接近 Sonnet 4.6 水平
- 在 OpenClaw 常用任务评测中表现优异
🎮 互动娱乐新探索
发布了 OpenRoom 项目:
- 将 AI 互动置入万物皆可互动的 Web GUI 空间
- 对话即驱动,实时产生视觉反馈与场景交互
- 角色可以主动与环境交互
🔗 项目地址:github.com/MiniMax-AI/…
🎯 立即体验:openroom.ai
🏆 M2.7 在 MLE Bench Lite 的表现
参与 22 个机器学习任务测试,三次平均成绩:
| 成绩 | 数量 |
|---|---|
| 🥇 金牌 | 9 枚 |
| 🥈 银牌 | 5 枚 |
| 🥉 铜牌 | 1 枚 |
| 总得牌率 | 66.6% |
全球排名:
- Opus-4.6:75.7%
- GPT-5.4:71.2%
- MiniMax M2.7:66.6%(与 Gemini-3.1 持平)
📱 如何体验
| 平台 | 链接 |
|---|---|
| MiniMax Agent | agent.minimaxi.com |
| API 服务 | platform.minimaxi.com |
| Coding Plan 订阅 | platform.minimaxi.com/subscribe/c… |
💬 总结
MiniMax M2.7 的发布标志着 AI 模型从"工具"向"助手"再到"自我进化体"的跨越。无论是软件工程、专业办公还是互动娱乐,M2.7 都展现出了接近甚至匹敌国际一线大模型的实力。
"Intelligence with Everyone."