MiniMax,又发布了新一代旗舰大模型M2.7。发布当日,股价暴涨28%,市值飙升至3883亿港元。
但资本市场狂欢的背后,是更值得关注的技术突破:这是全球首个具备“模型自我进化”能力的大模型。
一、核心突破:AI开始"自我进化"
什么是"模型自我进化"?
传统的大模型训练流程是这样的:
人类收集数据 → 人类设计训练策略 → 人类调参 → 人类评测 → 人类迭代
模型是被动的"被优化对象"。
而MiniMax M2.7改变了这一切。通过构建Agent Harness(智能体执行框架)体系,M2.7深度参与了自身的训练全流程:
模型分析数据 → 模型设计实验 → 模型优化训练 → 模型评测反馈 → 模型迭代升级
模型从被优化对象变成了优化过程的参与者。
Agent Harness如何工作?
Agent Harness是一个多组件协同系统,包含:
结构化Skills模块:模型自主构建和更新的技能库
外部工具集成:模型可调用的工具链
记忆系统:存储经验与反思
Agent Teams:多智能体协作团队
在内部测试中,M2.7能够连续执行超过100轮"分析—>改进—>验证"的闭环,在部分研发场景中承担30%-50%的工作量,内部评测集效果提升约30%。
这意味着什么?
AI不再是需要人类手把手教的工具,而成为可以自主完成任务生成、经验复用、反思归因的“工程师”。
二、性能表现:接近国际一线水平
办公场景:开源模型第一
在专业办公场景(GDPval-AA评估)中,M2.7以ELO分数1495的成绩,在45个模型中排名第4:
1、Claude Opus 4.6
2、Claude Sonnet 4.6
3、GPT-5.4
4、MiniMax M2.7(开源模型最高分)
这直接超越了GPT-5.3,办公能力对标Claude Opus。在Office文档处理与多轮编辑能力上表现尤为突出。
代码能力:追平国际一流
在代码生成基准测试中:
SWE-Pro:56.22%正确率,追平GPT-5.3-Codex
VIBE-Pro:55.6%得分,与Claude Opus 4.6几乎持平
Terminal Bench:57.0%得分,支持日志分析、Bug定位、代码重构
更实用的是,M2.7可以处理线上生产系统故障,通过关联监控指标与部署时间线进行因果推理,将故障恢复时间缩短至3分钟以内。
真实场景表现:
在mmclaw评估集(覆盖工作生活真实需求)中,M2.7准确率达62.7%,接近Claude Sonnet 4.6。
综合评测:
XSCT Arena xsct-l综合得分84.5,文字生成任务(如润色、摘要)表现优于部分排名更高的模型(如kimi-k2.5)。
但需要指出的是,M2.7在复杂逻辑推理和数学竞赛场景存在系统性短板,整体定位为第二梯队。
三、与GPT-5、Claude Opus的三国杀
GPT-5:全能标杆,工具使用和多模态能力断层领先,适合高复杂度任务
Claude Opus 4.6:代码维护和安全性专家,适合专业开发与敏感数据处理
MiniMax M2.7:开源、高效、自进化,性价比高,适合日常办公与中等复杂度开发。
四、技术背后的思考
从模型能力到执行系统能力,MiniMax M2.7的发布,标志着AI竞争从单纯的模型能力转向执行系统能力。
传统模型比拼的是参数规模、推理能力、多模态处理
而M2.7代表的新范式比拼的是系统构建能力、自主迭代能力、协作执行能力
M2.7延续了M系列的MoE(Mixture of Experts)架构,支持百万级token长上下文处理(得益于线性注意力混合架构)。
这意味着M2.7可以处理超长文档、维持长期对话记忆、分析大型代码库。
五、行业影响与未来展望
对研发效率的革新
M2.7的Agent Harness体系,使得模型可以模拟程序员、测试员、产品经理等角色,参与复杂技能构建(如强化学习框架),与研究项目组交互协作。
这预示着AI研发模式将发生根本性变革:AI不再是研发工具,而是研发伙伴。
开源生态的新标杆
作为开源模型,M2.7在办公和代码领域的表现,为国产大模型树立了新标杆。
降低企业使用门槛,促进二次开发和创新,推动AI普惠化。
局限性与挑战
尽管M2.7表现亮眼,但仍存在局限性:
模型总参数规模较小,处理极端复杂任务可能受限。
国际化生态支持较弱,复杂推理能力数据不足,工具使用能力与GPT系列仍有差距
六、结语
MiniMax M2.7的意义,不在于它是否超越了GPT-5或Claude Opus。
而在于它代表了一种新的技术路径:
让AI从被动工具,进化为具备自主迭代能力的协作系统。
这或许是国产大模型真正弯道超车的机会。
参考资料
MiniMax官方发布信息
GDPval-AA办公场景评测
SWE-Pro/VIBE-Pro代码基准测试
XSCT Arena综合评测
量子位等科技媒体报道
本文为技术分析文章,数据来源于公开评测与媒体报道,如有错漏欢迎指正。