实测MiniMax M3:国产模型第一次让我刮目相看

0 阅读1分钟

我一直在用MiniMax跑OpenClaw,每天自动抓取AI热点,定时推送,基本不掉链子。

说实话,之前对MiniMax的印象就四个字:大而全,但不精。

Coding不如GLM,生图不如Seedream,短视频制作不如Seedance...

每样都能用,但没有一样是最强的。

昨天,龙虾 AI Hot 推送弹窗:MiniMax M3上线了。

我顺手升了一下,实测上下文窗口确认支持1M,输入类型支持原生多模态,文本、图片、视频都能吃。

然后翻了几个对标账号的测评文,看完之后,我有点坐不住了。

这次M3最大的看点,不是某个单项跑分涨了多少,而是它第一次在同一个模型里凑齐了三样东西:

前沿的Coding/Agent能力、百万token级的上下文窗口、原生多模态。

圈内人管这叫“Frontier三件套”(前沿模型必须同时具备的三项能力):

  1. 强大的 Coding/Agentic 能力:能接管真实软件工程任务;
  2. 超长上下文窗口:百万 token 级;
  3. 原生多模态:从预训练阶段开始融合视觉信息,而非事后接插件;

说白了就是:能干活、能记住、能看懂。

之前能同时做到这三样的,只有Claude Opus、Gemini、GPT 这些海外闭源头部。

国产开源模型?一个都没有。

MiniMax M3是第一个。

1. 最让我信服的不是跑分

Coding和Agent这块,MiniMax内部做了个测试:让M3从一份残缺的代码骨架出发,在NVIDIA的GPU上优化一个FP8矩阵乘法算子。

这种活儿,搁我们公司,得安排一个资深工程师集中干一两周。

M3自己跑了24小时,提交了147次测试,调用了1959次工具,把硬件利用率从7.6%拉到了71.3%。

最优解出现在第145次提交。

在那之前经历了好几个分数不涨的平台期,别的模型在前30次就主动退出了。

它没放弃。

这种"死磕到底"的劲头,比什么跑分都让我信服。

2. 两个让我印象深刻的实测

第一个:有人让M3调研各家大模型厂商的token定价,做一个网页比价工具。

它不只是按指令完成了任务,还自己加了分组对比、汇率换算、主题切换。

这不是“按要求完成”,这是“做得比要求的更好”。

第二个更狠:把Andrej Karpathy一个40分钟的演讲视频扔给M3,让它整理成一篇5000字的报道。

16分钟处理完。章节结构清晰,截图选取和段落节奏对得上,没有那种一眼就能认出来的AI腔。

测评者的原话是:“这好像能直接发。”

对一个每天用AI写东西的人来说,这句话杀伤力太大了!

3. MiniMax Code 🆚 Claude Code

跟M3一起发布的还有MiniMax Code,对标Claude Code。

_核心能力叫Agent Team:_大任务拆成多个子任务并行干,一边产出一边自我检查、纠错,理论上能无人干预跑好几天。

我日常用Claude Code写脚本、部署Hermes Agent,对这类工具的体感很深。

Claude Code前阵子出了Dynamic Workflows,也是类似思路,但它更强调用代码做固定编排。

MiniMax Code更强调执行过程中的持续反思和纠错。

哪种更好?现在下结论还早。

但有一点可以确定:模型和Agent一起训练,配合度理论上会更高。

技术底层不展开说(太硬核,感兴趣的翻官方技术博客)。

就记住两件事:

  • 底层换了个更聪明的注意力机制,让你塞100万token进去也不卡,计算量降到上代的1/20。
  • 多模态从训练第一天就混着图文视频一起学,不是事后接插件凑数。

4. 说钱

Plus档¥49/月,6亿token;Max档¥119/月,18亿token;Ultra档¥469/月,55亿token。

按官方口径,相同价格下的用量大概是Claude订阅的15倍。

¥49一个月,6亿token!

我算了算,比我现在的Claude订阅便宜太多了。

模型权重10天内也会开源。

回头看,从M2到M3,MiniMax这一年的更新节奏不算快。

但这次,确实让我刮目相看。

之前觉得它“大而全但不精”,这次M3在Coding和Agent上的表现,至少从别人实测的数据来看,开始有「精」的样子了。

当然,我自己还得再深度用一段时间才能下最终结论。

闭源的护城河正在变窄。

而把一个模型做扎实,本来就是件慢功夫的事。

看后续实测表现吧。

如果Coding真能稳定在Opus 4.7那一档,对我来说,又多了一个趁手的工具。

多一个选择,总不是坏事。