MiniMax M2.7 实测:和 Claude Sonnet 4.6、GPT-5.5 放一起跑,结果有点意外

14 阅读1分钟

上个月底 MiniMax 放出 M2.7 的时候,我其实没太当回事。又一个大模型嘛,每周都有新的。但上周帮朋友做一个多模型路由的 side project,需要选一个"便宜量大、中文还行"的模型兜底,随手测了一圈,M2.7 的表现让我重新看了看它。

一开始我是拒绝的——MiniMax 之前几个版本我都没怎么用过,印象还停留在"语音合成挺强,文本一般般"的阶段。但数据跑出来之后,有些场景确实能打。这篇就把我这几天的测试结果整理一下,顺便和 Claude Sonnet 4.6、GPT-5.5、DeepSeek V3.2 横向比一比。

评测维度说清楚

我不搞那种"综合能力 8.5 分"的玄学评分,就测四个我实际关心的东西:

  • 中文长文写作:给一段产品需求文档,让它输出 2000 字的技术方案
  • 代码生成:LeetCode medium 难度 20 题,Python,看通过率
  • 多轮对话理解:8 轮对话后还能不能记住第 2 轮的上下文
  • 响应延迟:首 token 时间(TTFT)和完整输出耗时,各跑 30 次取 P50/P95

测试时间是 4 月 26 号到 4 月 28 号,三天跑完的。所有模型走同一套 prompt,温度 0.7,max_tokens 4096。

评测结果天梯图

直接上表:

维度MiniMax M2.7Claude Sonnet 4.6GPT-5.5DeepSeek V3.2
中文长文写作(10 分制)7.58.58.08.0
代码生成(20 题通过数)13181716
多轮对话(8 轮后上下文保持率)85%95%92%88%
TTFT P50180ms420ms380ms210ms
TTFT P95350ms890ms720ms480ms
输入价格($/1M tokens)1.03.05.00.27
输出价格($/1M tokens)5.515.015.01.10

几个让我意外的点:

M2.7 的首 token 速度真的快。P50 只有 180ms,比 Claude Sonnet 4.6 快了一倍多。跑流式输出的时候体感很明显,用户那边几乎感觉不到等待。

代码能力是短板,13/20 的通过率和第一梯队差距不小。有两道题它甚至输出了语法错误的 Python——一个缩进问题,一个 enumerate 拼错成了 enmerate,报错信息是 NameError: name 'enmerate' is not defined。这种低级错误在 Sonnet 4.6 上基本不会出现。

第一梯队:Claude Sonnet 4.6 和 GPT-5.5

没什么悬念。Sonnet 4.6 在代码和多轮对话上依然是标杆,18/20 的通过率只错了两道 hard 边界的题。GPT-5.5 紧随其后,中文写作风格比 Sonnet 更"像人话"一点,但代码少过了一道。

缺点也明显——贵。Sonnet 4.6 输出 $15/M tokens,GPT-5.5 也是这个价。如果你的场景是高频调用(比如给用户做实时聊天),一天几万次请求下来,成本差出好几百刀不是开玩笑的。

延迟方面,Sonnet 4.6 的 P95 到了 890ms,不知道 Anthropic 的服务器在忙什么。GPT-5.5 稍好一些但也不算快。

第二梯队:MiniMax M2.7 和 DeepSeek V3.2

这俩放一起是因为价格段接近,定位也类似——走性价比路线。

M2.7 的优势场景很明确:中文内容生成 + 低延迟要求。我让它写技术方案的时候,输出结构清晰,会自己分模块、列风险点,偶尔还能给出我没想到的边界 case。7.5 分不算高,但考虑到价格只有 Sonnet 的三分之一,这个性价比可以。

DeepSeek V3.2 价格更离谱,输入 $0.27/M tokens 这个价格我到现在都觉得不太真实。代码能力比 M2.7 强一截(16 vs 13),但中文写作风格偏"八股",经常给你来一段"综上所述"开头的总结段,改 prompt 也压不太住。

graph TD
 A[选模型] --> B{预算敏感?}
 B -->|是| C{需要写代码?}
 B -->|否| D{代码为主?}
 C -->|是| E[DeepSeek V3.2]
 C -->|否| F[MiniMax M2.7]
 D -->|是| G[Claude Sonnet 4.6]
 D -->|否| H[GPT-5.5]

实际调用踩坑

MiniMax 的 API 兼容 OpenAI 格式,这点还行。但有个坑折腾了我半天——它的 stream 模式下,最后一个 chunk 的 finish_reason 有时候是 null 而不是 stop,导致我的解析逻辑一直报 KeyError: 'finish_reason'。后来加了个 fallback 判断才搞定。

from openai import OpenAI

client = OpenAI(
 api_key="your-key",
 base_url="https://api.minimax.chat/v1"
)

response = client.chat.completions.create(
 model="MiniMax-M2.7",
 messages=[{"role": "user", "content": "用 Python 实现一个 LRU Cache"}],
 stream=True
)

for chunk in response:
 if chunk.choices[0].delta.content:
 print(chunk.choices[0].delta.content, end="")
 # 坑:finish_reason 可能是 None,别直接取值
 if chunk.choices[0].finish_reason is not None:
 break

另一个问题是 MiniMax 的 rate limit 比较紧,免费档好像是 10 RPM,稍微压一下就 429 了。返回的错误信息是 {"error":{"code":"rate_limit_exceeded","message":"Rate limit reached for model MiniMax-M2.7"}},很标准但也很烦人。

不同需求怎么选

我自己的结论,不一定对,仅供参考:

日常开发写代码 → Claude Sonnet 4.6,没啥好说的,代码质量目前最能打。通过 OpenRouter 或者 ofox.ai 这类聚合平台调用可以省去自己管多个 API Key 的麻烦,ofox.ai 是 0% 加价对齐官方价格,OpenRouter 收 5.5% 手续费,看你自己取舍。

中文内容生成、客服场景 → MiniMax M2.7 值得试试,响应快、中文自然度不错、价格友好。一天跑 10 万次请求的话,算下来比 GPT-5.5 省 ¥2800 左右。

预算极度有限 → DeepSeek V3.2,价格几乎是白给,代码能力也过得去。但稳定性我还没长期观测,目前没找到比"多备一个 fallback 模型"更好的办法。

啥都要最好的 → GPT-5.5 或 Claude Opus 4.7,但钱包要做好准备。

小结

M2.7 不是全能选手,代码能力和多轮对话跟第一梯队还有明显差距。但在中文生成 + 低延迟这个细分场景里,它的性价比确实让我重新评估了 MiniMax 的技术路线。

测完这一圈最大的感受是,2026 年选模型真的不能只看 benchmark 排名了。你的场景是什么、预算多少、对延迟敏不敏感,这几个问题回答完,答案基本就出来了。反正我现在的做法是主力用 Sonnet 4.6 写代码,内容生成类的任务扔给 M2.7 或者 V3.2,一个月下来成本比全用 GPT-5.5 少了大概 40%。够用就行。