上个月底 MiniMax 放出 M2.7 的时候,我其实没太当回事。又一个大模型嘛,每周都有新的。但上周帮朋友做一个多模型路由的 side project,需要选一个"便宜量大、中文还行"的模型兜底,随手测了一圈,M2.7 的表现让我重新看了看它。
一开始我是拒绝的——MiniMax 之前几个版本我都没怎么用过,印象还停留在"语音合成挺强,文本一般般"的阶段。但数据跑出来之后,有些场景确实能打。这篇就把我这几天的测试结果整理一下,顺便和 Claude Sonnet 4.6、GPT-5.5、DeepSeek V3.2 横向比一比。
评测维度说清楚
我不搞那种"综合能力 8.5 分"的玄学评分,就测四个我实际关心的东西:
- 中文长文写作:给一段产品需求文档,让它输出 2000 字的技术方案
- 代码生成:LeetCode medium 难度 20 题,Python,看通过率
- 多轮对话理解:8 轮对话后还能不能记住第 2 轮的上下文
- 响应延迟:首 token 时间(TTFT)和完整输出耗时,各跑 30 次取 P50/P95
测试时间是 4 月 26 号到 4 月 28 号,三天跑完的。所有模型走同一套 prompt,温度 0.7,max_tokens 4096。
评测结果天梯图
直接上表:
| 维度 | MiniMax M2.7 | Claude Sonnet 4.6 | GPT-5.5 | DeepSeek V3.2 |
|---|---|---|---|---|
| 中文长文写作(10 分制) | 7.5 | 8.5 | 8.0 | 8.0 |
| 代码生成(20 题通过数) | 13 | 18 | 17 | 16 |
| 多轮对话(8 轮后上下文保持率) | 85% | 95% | 92% | 88% |
| TTFT P50 | 180ms | 420ms | 380ms | 210ms |
| TTFT P95 | 350ms | 890ms | 720ms | 480ms |
| 输入价格($/1M tokens) | 1.0 | 3.0 | 5.0 | 0.27 |
| 输出价格($/1M tokens) | 5.5 | 15.0 | 15.0 | 1.10 |
几个让我意外的点:
M2.7 的首 token 速度真的快。P50 只有 180ms,比 Claude Sonnet 4.6 快了一倍多。跑流式输出的时候体感很明显,用户那边几乎感觉不到等待。
代码能力是短板,13/20 的通过率和第一梯队差距不小。有两道题它甚至输出了语法错误的 Python——一个缩进问题,一个 enumerate 拼错成了 enmerate,报错信息是 NameError: name 'enmerate' is not defined。这种低级错误在 Sonnet 4.6 上基本不会出现。
第一梯队:Claude Sonnet 4.6 和 GPT-5.5
没什么悬念。Sonnet 4.6 在代码和多轮对话上依然是标杆,18/20 的通过率只错了两道 hard 边界的题。GPT-5.5 紧随其后,中文写作风格比 Sonnet 更"像人话"一点,但代码少过了一道。
缺点也明显——贵。Sonnet 4.6 输出 $15/M tokens,GPT-5.5 也是这个价。如果你的场景是高频调用(比如给用户做实时聊天),一天几万次请求下来,成本差出好几百刀不是开玩笑的。
延迟方面,Sonnet 4.6 的 P95 到了 890ms,不知道 Anthropic 的服务器在忙什么。GPT-5.5 稍好一些但也不算快。
第二梯队:MiniMax M2.7 和 DeepSeek V3.2
这俩放一起是因为价格段接近,定位也类似——走性价比路线。
M2.7 的优势场景很明确:中文内容生成 + 低延迟要求。我让它写技术方案的时候,输出结构清晰,会自己分模块、列风险点,偶尔还能给出我没想到的边界 case。7.5 分不算高,但考虑到价格只有 Sonnet 的三分之一,这个性价比可以。
DeepSeek V3.2 价格更离谱,输入 $0.27/M tokens 这个价格我到现在都觉得不太真实。代码能力比 M2.7 强一截(16 vs 13),但中文写作风格偏"八股",经常给你来一段"综上所述"开头的总结段,改 prompt 也压不太住。
graph TD
A[选模型] --> B{预算敏感?}
B -->|是| C{需要写代码?}
B -->|否| D{代码为主?}
C -->|是| E[DeepSeek V3.2]
C -->|否| F[MiniMax M2.7]
D -->|是| G[Claude Sonnet 4.6]
D -->|否| H[GPT-5.5]
实际调用踩坑
MiniMax 的 API 兼容 OpenAI 格式,这点还行。但有个坑折腾了我半天——它的 stream 模式下,最后一个 chunk 的 finish_reason 有时候是 null 而不是 stop,导致我的解析逻辑一直报 KeyError: 'finish_reason'。后来加了个 fallback 判断才搞定。
from openai import OpenAI
client = OpenAI(
api_key="your-key",
base_url="https://api.minimax.chat/v1"
)
response = client.chat.completions.create(
model="MiniMax-M2.7",
messages=[{"role": "user", "content": "用 Python 实现一个 LRU Cache"}],
stream=True
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
# 坑:finish_reason 可能是 None,别直接取值
if chunk.choices[0].finish_reason is not None:
break
另一个问题是 MiniMax 的 rate limit 比较紧,免费档好像是 10 RPM,稍微压一下就 429 了。返回的错误信息是 {"error":{"code":"rate_limit_exceeded","message":"Rate limit reached for model MiniMax-M2.7"}},很标准但也很烦人。
不同需求怎么选
我自己的结论,不一定对,仅供参考:
日常开发写代码 → Claude Sonnet 4.6,没啥好说的,代码质量目前最能打。通过 OpenRouter 或者 ofox.ai 这类聚合平台调用可以省去自己管多个 API Key 的麻烦,ofox.ai 是 0% 加价对齐官方价格,OpenRouter 收 5.5% 手续费,看你自己取舍。
中文内容生成、客服场景 → MiniMax M2.7 值得试试,响应快、中文自然度不错、价格友好。一天跑 10 万次请求的话,算下来比 GPT-5.5 省 ¥2800 左右。
预算极度有限 → DeepSeek V3.2,价格几乎是白给,代码能力也过得去。但稳定性我还没长期观测,目前没找到比"多备一个 fallback 模型"更好的办法。
啥都要最好的 → GPT-5.5 或 Claude Opus 4.7,但钱包要做好准备。
小结
M2.7 不是全能选手,代码能力和多轮对话跟第一梯队还有明显差距。但在中文生成 + 低延迟这个细分场景里,它的性价比确实让我重新评估了 MiniMax 的技术路线。
测完这一圈最大的感受是,2026 年选模型真的不能只看 benchmark 排名了。你的场景是什么、预算多少、对延迟敏不敏感,这几个问题回答完,答案基本就出来了。反正我现在的做法是主力用 Sonnet 4.6 写代码,内容生成类的任务扔给 M2.7 或者 V3.2,一个月下来成本比全用 GPT-5.5 少了大概 40%。够用就行。