实测MiniMax M3：国产模型第一次让我刮目相看就在昨日，MiniMax 低调发布 M3 和 MiniMax Cod

我一直在用MiniMax跑OpenClaw，每天自动抓取AI热点，定时推送，基本不掉链子。

说实话，之前对MiniMax的印象就四个字：大而全，但不精。

Coding不如GLM，生图不如Seedream，短视频制作不如Seedance...

每样都能用，但没有一样是最强的。

昨天，龙虾 AI Hot 推送弹窗：MiniMax M3上线了。

我顺手升了一下，实测上下文窗口确认支持1M，输入类型支持原生多模态，文本、图片、视频都能吃。

然后翻了几个对标账号的测评文，看完之后，我有点坐不住了。

这次M3最大的看点，不是某个单项跑分涨了多少，而是它第一次在同一个模型里凑齐了三样东西：

前沿的Coding/Agent能力、百万token级的上下文窗口、原生多模态。

圈内人管这叫“Frontier三件套”（前沿模型必须同时具备的三项能力）：

强大的 Coding/Agentic 能力：能接管真实软件工程任务；
超长上下文窗口：百万 token 级；
原生多模态：从预训练阶段开始融合视觉信息，而非事后接插件；

说白了就是：能干活、能记住、能看懂。

之前能同时做到这三样的，只有Claude Opus、Gemini、GPT 这些海外闭源头部。

国产开源模型？一个都没有。

MiniMax M3是第一个。

1. 最让我信服的不是跑分

Coding和Agent这块，MiniMax内部做了个测试：让M3从一份残缺的代码骨架出发，在NVIDIA的GPU上优化一个FP8矩阵乘法算子。

这种活儿，搁我们公司，得安排一个资深工程师集中干一两周。

M3自己跑了24小时，提交了147次测试，调用了1959次工具，把硬件利用率从7.6%拉到了71.3%。

最优解出现在第145次提交。

在那之前经历了好几个分数不涨的平台期，别的模型在前30次就主动退出了。

它没放弃。

这种"死磕到底"的劲头，比什么跑分都让我信服。

2. 两个让我印象深刻的实测

第一个：有人让M3调研各家大模型厂商的token定价，做一个网页比价工具。

它不只是按指令完成了任务，还自己加了分组对比、汇率换算、主题切换。

这不是“按要求完成”，这是“做得比要求的更好”。

第二个更狠：把Andrej Karpathy一个40分钟的演讲视频扔给M3，让它整理成一篇5000字的报道。

16分钟处理完。章节结构清晰，截图选取和段落节奏对得上，没有那种一眼就能认出来的AI腔。

测评者的原话是：“这好像能直接发。”

对一个每天用AI写东西的人来说，这句话杀伤力太大了！

3. MiniMax Code 🆚 Claude Code

跟M3一起发布的还有MiniMax Code，对标Claude Code。

_核心能力叫Agent Team：_大任务拆成多个子任务并行干，一边产出一边自我检查、纠错，理论上能无人干预跑好几天。

我日常用Claude Code写脚本、部署Hermes Agent，对这类工具的体感很深。

Claude Code前阵子出了Dynamic Workflows，也是类似思路，但它更强调用代码做固定编排。

MiniMax Code更强调执行过程中的持续反思和纠错。

哪种更好？现在下结论还早。

但有一点可以确定：模型和Agent一起训练，配合度理论上会更高。

技术底层不展开说（太硬核，感兴趣的翻官方技术博客）。

就记住两件事：

底层换了个更聪明的注意力机制，让你塞100万token进去也不卡，计算量降到上代的1/20。
多模态从训练第一天就混着图文视频一起学，不是事后接插件凑数。

4. 说钱

Plus档¥49/月，6亿token；Max档¥119/月，18亿token；Ultra档¥469/月，55亿token。

按官方口径，相同价格下的用量大概是Claude订阅的15倍。

¥49一个月，6亿token！

我算了算，比我现在的Claude订阅便宜太多了。

模型权重10天内也会开源。

回头看，从M2到M3，MiniMax这一年的更新节奏不算快。

但这次，确实让我刮目相看。

之前觉得它“大而全但不精”，这次M3在Coding和Agent上的表现，至少从别人实测的数据来看，开始有「精」的样子了。

当然，我自己还得再深度用一段时间才能下最终结论。

闭源的护城河正在变窄。

而把一个模型做扎实，本来就是件慢功夫的事。

看后续实测表现吧。

如果Coding真能稳定在Opus 4.7那一档，对我来说，又多了一个趁手的工具。

多一个选择，总不是坏事。