MiniMax M2.7 实测：和 Claude Sonnet 4.6、GPT-5.5 放一起跑，结果有点意外

上周我们团队在做一个多轮对话的客服系统，老板突然甩过来一条消息："MiniMax 出了个 M2.7，说是长文本很强，你测一下看看能不能替掉现在的 Sonnet。"

说实话一开始我是拒绝的。MiniMax 之前的模型我用过，印象停留在"还行但不够惊艳"的阶段。但 M2.7 放出来的 benchmark 数据确实有点猛——尤其是长上下文和指令遵循这块，官方说超过了一些一线模型。行吧，反正要出评测报告给老板，索性把手头常用的几个模型拉出来一起跑。

评测维度

这次评测我关注的核心指标：

首 Token 延迟（TTFT）：用户体感最直接的东西
长文本理解准确率：塞 80k token 的合同进去问细节
指令遵循率：给复杂 JSON schema 看它能不能严格输出
输出质量（人工盲评）：5 个同事打分，不告诉他们哪个是哪个模型
价格：算到每百万 token 人民币

测试环境：同一台香港服务器发请求，每个模型跑 50 次取中位数。时间是 4 月 25 号下午，避开高峰期。

评测结果天梯图

模型	TTFT (P50)	80k 长文本准确率	指令遵循率	人工盲评 (5分制)	输入价格 (¥/百万token)	输出价格 (¥/百万token)
Claude Sonnet 4.6	380ms	92%	96%	4.3	¥21.6	¥108
GPT-5.5	290ms	89%	94%	4.1	¥15.1	¥43.2
MiniMax M2.7	210ms	94%	91%	3.9	¥7.2	¥28.8
Gemini 3.1 Pro	340ms	88%	90%	3.8	¥9.0	¥36.0
DeepSeek V3.2	260ms	85%	88%	3.7	¥4.3	¥14.4

说明：价格按 4 月 25 日各平台公开定价折算人民币，汇率 7.2。

第一梯队：各有绝活

Claude Sonnet 4.6 依然是综合最强的那个。指令遵循 96% 不是吹的——我给了一个嵌套三层的 JSON schema，要求严格不多不少，Sonnet 50 次里只有 2 次多输出了一个字段。人工盲评分也最高，文字质量确实能感觉到"更聪明"。但价格嘛……输出 ¥108/百万 token，一天跑下来我看着账单心疼。

MiniMax M2.7 让我意外的是两个点：TTFT 只有 210ms，这次测试里最快；长文本准确率 94% 居然比 Sonnet 还高 2 个百分点。我塞了一份 82k token 的租赁合同进去，问第 47 页第三条关于违约金的计算方式，M2.7 精准定位到了原文并且正确总结。Sonnet 也答对了但漏了一个附加条件。

不过 M2.7 的短板也明显——指令遵循 91% 意味着每 10 次大概有 1 次不按你要求的格式输出。我遇到过它把 JSON 里的数字类型输出成字符串的情况，报错长这样：

json.decoder.JSONDecodeError: Expecting value: line 12 column 18 (char 245)

debug 了一下发现它把 "price": 299.0 写成了 "price": "299.0"。挺烦人的，加了个 retry + 类型强转才解决。

GPT-5.5 中规中矩，没什么惊喜也没什么大坑。延迟 290ms 可以接受，价格比 Sonnet 便宜一半多。适合什么都要做但预算有限的场景。

第二梯队：性价比之选

Gemini 3.1 Pro 和 DeepSeek V3.2 放第二梯队不是说它们差，而是在我这个特定场景（长文本 + 严格格式输出）里确实不如前三个。

DeepSeek V3.2 的价格真的离谱便宜，输入 ¥4.3/百万 token，跑量大的任务用它兜底完全没问题。但长文本一旦超过 60k 就开始出现"幻觉式总结"——它会编一个看起来很合理但原文里根本没有的条款出来。

graph TD
 A[需求分析] --> B{预算敏感?}
 B -->|是| C{需要长文本?}
 B -->|否| D[Claude Sonnet 4.6]
 C -->|是| E[MiniMax M2.7]
 C -->|否| F[DeepSeek V3.2]
 D --> G[质量最优]
 E --> H[性价比最优]
 F --> I[成本最低]

不同需求怎么选

折腾了两天测完数据，我的结论：

要质量不差钱 → Claude Sonnet 4.6，没悬念。指令遵循和输出质量就是比别人高一档。

长文本场景 + 控成本 → MiniMax M2.7 真的可以试试。94% 的长文本准确率加上 ¥7.2 的输入价格，算下来一天处理 200 份合同大概 ¥48，比 Sonnet 便宜将近 3 倍。TTFT 210ms 用户体感也很好。

纯跑量不需要太高质量 → DeepSeek V3.2，一天 ¥3.4 能处理的量够一个小团队用了。

均衡型 → GPT-5.5，什么都行什么都不拉胯。

接入方式补充

M2.7 目前官方 API 和几个聚合平台都能调。我测试的时候用的是 OpenRouter 和 ofox.ai 两个渠道对比——OpenRouter 加了 5.5% 手续费，ofox.ai 是 0% 加价对齐官方定价，延迟上两者差不多（ofox 的香港 P95 在 320ms 左右）。代码层面改个 base_url 就行：

from openai import OpenAI

client = OpenAI(
 api_key="your-key",
 base_url="https://api.ofox.ai/v1"
)

response = client.chat.completions.create(
 model="minimax-m2.7",
 messages=[{"role": "user", "content": "你好"}],
 max_tokens=2048
)

小结

M2.7 给我最大的感受是——MiniMax 这次确实在长文本这个垂直方向上做到了一线水平。如果你的场景恰好是处理长文档、合同分析、知识库问答这类，它的性价比目前没什么对手。

但如果你需要严格的结构化输出（比如 function calling 或者复杂 JSON），我建议还是 Sonnet 4.6 或者 GPT-5.5 更稳。M2.7 的指令遵循还差那么一口气，期待后续版本能补上。

另外我也不确定 M2.7 的长文本优势在更大规模（比如 200k+）下还能不能保持，目前只测了 80k 级别。等后续有时间再补个超长文本的对比。