上周我们团队在做一个多轮对话的客服系统,老板突然甩过来一条消息:"MiniMax 出了个 M2.7,说是长文本很强,你测一下看看能不能替掉现在的 Sonnet。"
说实话一开始我是拒绝的。MiniMax 之前的模型我用过,印象停留在"还行但不够惊艳"的阶段。但 M2.7 放出来的 benchmark 数据确实有点猛——尤其是长上下文和指令遵循这块,官方说超过了一些一线模型。行吧,反正要出评测报告给老板,索性把手头常用的几个模型拉出来一起跑。
评测维度
这次评测我关注的核心指标:
- 首 Token 延迟(TTFT):用户体感最直接的东西
- 长文本理解准确率:塞 80k token 的合同进去问细节
- 指令遵循率:给复杂 JSON schema 看它能不能严格输出
- 输出质量(人工盲评):5 个同事打分,不告诉他们哪个是哪个模型
- 价格:算到每百万 token 人民币
测试环境:同一台香港服务器发请求,每个模型跑 50 次取中位数。时间是 4 月 25 号下午,避开高峰期。
评测结果天梯图
| 模型 | TTFT (P50) | 80k 长文本准确率 | 指令遵循率 | 人工盲评 (5分制) | 输入价格 (¥/百万token) | 输出价格 (¥/百万token) |
|---|---|---|---|---|---|---|
| Claude Sonnet 4.6 | 380ms | 92% | 96% | 4.3 | ¥21.6 | ¥108 |
| GPT-5.5 | 290ms | 89% | 94% | 4.1 | ¥15.1 | ¥43.2 |
| MiniMax M2.7 | 210ms | 94% | 91% | 3.9 | ¥7.2 | ¥28.8 |
| Gemini 3.1 Pro | 340ms | 88% | 90% | 3.8 | ¥9.0 | ¥36.0 |
| DeepSeek V3.2 | 260ms | 85% | 88% | 3.7 | ¥4.3 | ¥14.4 |
说明:价格按 4 月 25 日各平台公开定价折算人民币,汇率 7.2。
第一梯队:各有绝活
Claude Sonnet 4.6 依然是综合最强的那个。指令遵循 96% 不是吹的——我给了一个嵌套三层的 JSON schema,要求严格不多不少,Sonnet 50 次里只有 2 次多输出了一个字段。人工盲评分也最高,文字质量确实能感觉到"更聪明"。但价格嘛……输出 ¥108/百万 token,一天跑下来我看着账单心疼。
MiniMax M2.7 让我意外的是两个点:TTFT 只有 210ms,这次测试里最快;长文本准确率 94% 居然比 Sonnet 还高 2 个百分点。我塞了一份 82k token 的租赁合同进去,问第 47 页第三条关于违约金的计算方式,M2.7 精准定位到了原文并且正确总结。Sonnet 也答对了但漏了一个附加条件。
不过 M2.7 的短板也明显——指令遵循 91% 意味着每 10 次大概有 1 次不按你要求的格式输出。我遇到过它把 JSON 里的数字类型输出成字符串的情况,报错长这样:
json.decoder.JSONDecodeError: Expecting value: line 12 column 18 (char 245)
debug 了一下发现它把 "price": 299.0 写成了 "price": "299.0"。挺烦人的,加了个 retry + 类型强转才解决。
GPT-5.5 中规中矩,没什么惊喜也没什么大坑。延迟 290ms 可以接受,价格比 Sonnet 便宜一半多。适合什么都要做但预算有限的场景。
第二梯队:性价比之选
Gemini 3.1 Pro 和 DeepSeek V3.2 放第二梯队不是说它们差,而是在我这个特定场景(长文本 + 严格格式输出)里确实不如前三个。
DeepSeek V3.2 的价格真的离谱便宜,输入 ¥4.3/百万 token,跑量大的任务用它兜底完全没问题。但长文本一旦超过 60k 就开始出现"幻觉式总结"——它会编一个看起来很合理但原文里根本没有的条款出来。
graph TD
A[需求分析] --> B{预算敏感?}
B -->|是| C{需要长文本?}
B -->|否| D[Claude Sonnet 4.6]
C -->|是| E[MiniMax M2.7]
C -->|否| F[DeepSeek V3.2]
D --> G[质量最优]
E --> H[性价比最优]
F --> I[成本最低]
不同需求怎么选
折腾了两天测完数据,我的结论:
要质量不差钱 → Claude Sonnet 4.6,没悬念。指令遵循和输出质量就是比别人高一档。
长文本场景 + 控成本 → MiniMax M2.7 真的可以试试。94% 的长文本准确率加上 ¥7.2 的输入价格,算下来一天处理 200 份合同大概 ¥48,比 Sonnet 便宜将近 3 倍。TTFT 210ms 用户体感也很好。
纯跑量不需要太高质量 → DeepSeek V3.2,一天 ¥3.4 能处理的量够一个小团队用了。
均衡型 → GPT-5.5,什么都行什么都不拉胯。
接入方式补充
M2.7 目前官方 API 和几个聚合平台都能调。我测试的时候用的是 OpenRouter 和 ofox.ai 两个渠道对比——OpenRouter 加了 5.5% 手续费,ofox.ai 是 0% 加价对齐官方定价,延迟上两者差不多(ofox 的香港 P95 在 320ms 左右)。代码层面改个 base_url 就行:
from openai import OpenAI
client = OpenAI(
api_key="your-key",
base_url="https://api.ofox.ai/v1"
)
response = client.chat.completions.create(
model="minimax-m2.7",
messages=[{"role": "user", "content": "你好"}],
max_tokens=2048
)
小结
M2.7 给我最大的感受是——MiniMax 这次确实在长文本这个垂直方向上做到了一线水平。如果你的场景恰好是处理长文档、合同分析、知识库问答这类,它的性价比目前没什么对手。
但如果你需要严格的结构化输出(比如 function calling 或者复杂 JSON),我建议还是 Sonnet 4.6 或者 GPT-5.5 更稳。M2.7 的指令遵循还差那么一口气,期待后续版本能补上。
另外我也不确定 M2.7 的长文本优势在更大规模(比如 200k+)下还能不能保持,目前只测了 80k 级别。等后续有时间再补个超长文本的对比。