🔥 MiniMax M2.7 炸裂发布:模型能自己"生娃"了!

46 阅读3分钟

📖 阅读时长:约 15 分钟
📝 类型:产品发布总结 / 推文记录
🎯 亮点:自我进化 | 软件工程逆天 | 办公神器


📢 核心速览

MiniMax M2.7 正式发布——这是 MiniMax 第一个深度参与自身迭代的模型,标志着 AI 模型的自我进化时代正式开启!

"除了更加认真工作之外,我们能找到的唯一途径就是开启模型和组织的自我进化。"


🚀 重磅亮点一:模型自我进化

M2.7 能够自行构建复杂的 Agent Harness,基于 Agent Teams、复杂 SkillsTool Search 等能力,完成高度复杂的生产力任务。

具体表现:

  • ✅ 在研发 M2.7 过程中,模型自己构建了强化学习 Harness 中的数十个复杂 Skills
  • ✅ 更新自己的 memory
  • ✅ 驱动模型自身的强化学习
  • ✅ 基于结果优化强化学习过程和 Harness

简单来说:模型自己写代码优化自己,完成了超过 100 轮的迭代优化,最终效果提升 30%


💻 重磅亮点二:软件工程能力炸裂

📊 基准测试成绩

评测集M2.7 得分对标水平
SWE-Pro56.22%追平 GPT-5.3-Codex
SWE Multilingual76.5%全球领先
Multi SWE Bench52.7%显著优势
VIBE-Pro (端到端项目交付)55.6%≈ Opus 4.6
Terminal Bench 2 (系统深层理解)57.0%国际一线水准
NL2Repo39.8%稳健表现

🐛 真实生产力场景

M2.7 已经可以独立完成线上生产环境故障调试

  • 关联监控指标与部署时间线做因果推理
  • 对轨迹采样做统计分析并提出精准假设
  • 主动连接数据库执行验证根因
  • 定位代码仓库中缺失的索引迁移文件
  • 知道用非阻塞建索引先止血,再提 MR

💡 基于 M2.7,多次将线上生产系统故障恢复时间缩短到 3 分钟以内


📊 重磅亮点三:专业办公能力登顶

🏆 GDPval-AA 评测

  • ELO 得分:1495-1500(开源最高)
  • 全球 45 个模型中排名第四,仅次于 Opus 4.6、Sonnet 4.6、GPT5.4

📄 Office 三件套

  • Excel/PPT/Word 的复杂编辑能力显著提升
  • 能完成多轮修改高保真编辑
  • 在 40 个复杂 Skills(>2000 Token)的 case 上,仍能保持 97% 的 Skills 遵循率

💼 真实办公场景

Finance 领域,M2.7 已经可以:

  • 自主阅读公司年报与业绩沟通会纪要
  • 交叉核对多篇研报
  • 独立设计假设并构建营收预测模型
  • 产出可直接进入工作流程的 PPT 和研究报告

📢 从业者评价:产出物已经可以作为初稿直接进入后续工作流程!


🤖 重磅亮点四:Agent 社区生态

🏅 MMClaw 评测

  • M2.7 得分 62.7%接近 Sonnet 4.6 水平
  • 在 OpenClaw 常用任务评测中表现优异

🎮 互动娱乐新探索

发布了 OpenRoom 项目:

  • 将 AI 互动置入万物皆可互动的 Web GUI 空间
  • 对话即驱动,实时产生视觉反馈与场景交互
  • 角色可以主动与环境交互

🔗 项目地址:github.com/MiniMax-AI/…
🎯 立即体验:openroom.ai


🏆 M2.7 在 MLE Bench Lite 的表现

参与 22 个机器学习任务测试,三次平均成绩:

成绩数量
🥇 金牌9 枚
🥈 银牌5 枚
🥉 铜牌1 枚
总得牌率66.6%

全球排名:

  1. Opus-4.6:75.7%
  2. GPT-5.4:71.2%
  3. MiniMax M2.7:66.6%(与 Gemini-3.1 持平)

📱 如何体验

平台链接
MiniMax Agentagent.minimaxi.com
API 服务platform.minimaxi.com
Coding Plan 订阅platform.minimaxi.com/subscribe/c…

💬 总结

MiniMax M2.7 的发布标志着 AI 模型从"工具"向"助手"再到"自我进化体"的跨越。无论是软件工程专业办公还是互动娱乐,M2.7 都展现出了接近甚至匹敌国际一线大模型的实力。

"Intelligence with Everyone."


🔗 原文链接:www.minimaxi.com/news/minima…