MiniMax M2.7 实测：和 Claude Sonnet 4.6、GPT-5.5 放一起跑，结果有点意外

上个月底 MiniMax 放出 M2.7 的时候，我其实没太当回事。又一个大模型嘛，每周都有新的。但上周帮朋友做一个多模型路由的 side project，需要选一个"便宜量大、中文还行"的模型兜底，随手测了一圈，M2.7 的表现让我重新看了看它。

一开始我是拒绝的——MiniMax 之前几个版本我都没怎么用过，印象还停留在"语音合成挺强，文本一般般"的阶段。但数据跑出来之后，有些场景确实能打。这篇就把我这几天的测试结果整理一下，顺便和 Claude Sonnet 4.6、GPT-5.5、DeepSeek V3.2 横向比一比。

评测维度说清楚

我不搞那种"综合能力 8.5 分"的玄学评分，就测四个我实际关心的东西：

中文长文写作：给一段产品需求文档，让它输出 2000 字的技术方案
代码生成：LeetCode medium 难度 20 题，Python，看通过率
多轮对话理解：8 轮对话后还能不能记住第 2 轮的上下文
响应延迟：首 token 时间（TTFT）和完整输出耗时，各跑 30 次取 P50/P95

测试时间是 4 月 26 号到 4 月 28 号，三天跑完的。所有模型走同一套 prompt，温度 0.7，max_tokens 4096。

评测结果天梯图

直接上表：

维度	MiniMax M2.7	Claude Sonnet 4.6	GPT-5.5	DeepSeek V3.2
中文长文写作（10 分制）	7.5	8.5	8.0	8.0
代码生成（20 题通过数）	13	18	17	16
多轮对话（8 轮后上下文保持率）	85%	95%	92%	88%
TTFT P50	180ms	420ms	380ms	210ms
TTFT P95	350ms	890ms	720ms	480ms
输入价格（$/1M tokens）	1.0	3.0	5.0	0.27
输出价格（$/1M tokens）	5.5	15.0	15.0	1.10

几个让我意外的点：

M2.7 的首 token 速度真的快。P50 只有 180ms，比 Claude Sonnet 4.6 快了一倍多。跑流式输出的时候体感很明显，用户那边几乎感觉不到等待。

代码能力是短板，13/20 的通过率和第一梯队差距不小。有两道题它甚至输出了语法错误的 Python——一个缩进问题，一个 enumerate 拼错成了 enmerate，报错信息是 NameError: name 'enmerate' is not defined。这种低级错误在 Sonnet 4.6 上基本不会出现。

第一梯队：Claude Sonnet 4.6 和 GPT-5.5

没什么悬念。Sonnet 4.6 在代码和多轮对话上依然是标杆，18/20 的通过率只错了两道 hard 边界的题。GPT-5.5 紧随其后，中文写作风格比 Sonnet 更"像人话"一点，但代码少过了一道。

缺点也明显——贵。Sonnet 4.6 输出 $15/M tokens，GPT-5.5 也是这个价。如果你的场景是高频调用（比如给用户做实时聊天），一天几万次请求下来，成本差出好几百刀不是开玩笑的。

延迟方面，Sonnet 4.6 的 P95 到了 890ms，不知道 Anthropic 的服务器在忙什么。GPT-5.5 稍好一些但也不算快。

第二梯队：MiniMax M2.7 和 DeepSeek V3.2

这俩放一起是因为价格段接近，定位也类似——走性价比路线。

M2.7 的优势场景很明确：中文内容生成 + 低延迟要求。我让它写技术方案的时候，输出结构清晰，会自己分模块、列风险点，偶尔还能给出我没想到的边界 case。7.5 分不算高，但考虑到价格只有 Sonnet 的三分之一，这个性价比可以。

DeepSeek V3.2 价格更离谱，输入 $0.27/M tokens 这个价格我到现在都觉得不太真实。代码能力比 M2.7 强一截（16 vs 13），但中文写作风格偏"八股"，经常给你来一段"综上所述"开头的总结段，改 prompt 也压不太住。

graph TD
 A[选模型] --> B{预算敏感？}
 B -->|是| C{需要写代码？}
 B -->|否| D{代码为主？}
 C -->|是| E[DeepSeek V3.2]
 C -->|否| F[MiniMax M2.7]
 D -->|是| G[Claude Sonnet 4.6]
 D -->|否| H[GPT-5.5]

实际调用踩坑

MiniMax 的 API 兼容 OpenAI 格式，这点还行。但有个坑折腾了我半天——它的 stream 模式下，最后一个 chunk 的 finish_reason 有时候是 null 而不是 stop，导致我的解析逻辑一直报 KeyError: 'finish_reason'。后来加了个 fallback 判断才搞定。

from openai import OpenAI

client = OpenAI(
 api_key="your-key",
 base_url="https://api.minimax.chat/v1"
)

response = client.chat.completions.create(
 model="MiniMax-M2.7",
 messages=[{"role": "user", "content": "用 Python 实现一个 LRU Cache"}],
 stream=True
)

for chunk in response:
 if chunk.choices[0].delta.content:
 print(chunk.choices[0].delta.content, end="")
 # 坑：finish_reason 可能是 None，别直接取值
 if chunk.choices[0].finish_reason is not None:
 break

另一个问题是 MiniMax 的 rate limit 比较紧，免费档好像是 10 RPM，稍微压一下就 429 了。返回的错误信息是 {"error":{"code":"rate_limit_exceeded","message":"Rate limit reached for model MiniMax-M2.7"}}，很标准但也很烦人。

不同需求怎么选

我自己的结论，不一定对，仅供参考：

日常开发写代码 → Claude Sonnet 4.6，没啥好说的，代码质量目前最能打。通过 OpenRouter 或者 ofox.ai 这类聚合平台调用可以省去自己管多个 API Key 的麻烦，ofox.ai 是 0% 加价对齐官方价格，OpenRouter 收 5.5% 手续费，看你自己取舍。

中文内容生成、客服场景 → MiniMax M2.7 值得试试，响应快、中文自然度不错、价格友好。一天跑 10 万次请求的话，算下来比 GPT-5.5 省 ¥2800 左右。

预算极度有限 → DeepSeek V3.2，价格几乎是白给，代码能力也过得去。但稳定性我还没长期观测，目前没找到比"多备一个 fallback 模型"更好的办法。

啥都要最好的 → GPT-5.5 或 Claude Opus 4.7，但钱包要做好准备。

小结

M2.7 不是全能选手，代码能力和多轮对话跟第一梯队还有明显差距。但在中文生成 + 低延迟这个细分场景里，它的性价比确实让我重新评估了 MiniMax 的技术路线。

测完这一圈最大的感受是，2026 年选模型真的不能只看 benchmark 排名了。你的场景是什么、预算多少、对延迟敏不敏感，这几个问题回答完，答案基本就出来了。反正我现在的做法是主力用 Sonnet 4.6 写代码，内容生成类的任务扔给 M2.7 或者 V3.2，一个月下来成本比全用 GPT-5.5 少了大概 40%。够用就行。