上周我们团队在做一个多轮对话的客服系统,老板说预算砍了 40%,让我重新选模型。之前一直用 Claude Sonnet 4.6 跑,效果没话说但成本扛不住。正好 4 月底 MiniMax 发了 M2.5,号称中文场景吊打一众开源模型,我就花了两天把几个候选模型拉出来跑了一遍。
说实话,测完数据我人傻了——不是因为某个模型碾压全场,而是各家的强项和短板差异大得离谱,根本不存在"一个模型打天下"的事。
评测维度
这次评测我关注四个维度:
中文多轮对话质量——客服场景核心,用了 50 组真实用户问题,包含追问、纠正、上下文引用。人工打分 1-5 分。
首 Token 延迟(TTFT)——用户体验的命门。我在香港跑的,每个模型各打 100 次取 P50 和 P95。
输出速度(tokens/s)——长回复场景下用户等不等得住。
千 token 成本——按官方定价算,输入输出分开算,最后折成一个"平均每轮对话成本"。
评测结果
先甩表格,后面再展开聊。
| 模型 | 中文多轮对话(5分制) | TTFT P50 | TTFT P95 | 输出速度 | 输入价格(/M tokens) | 输出价格(/M tokens) | 单轮对话均价 |
|---|---|---|---|---|---|---|---|
| MiniMax M2.5 | 4.1 | 280ms | 520ms | 78 t/s | ¥1.0 | ¥8.0 | ≈¥0.006 |
| DeepSeek V4 预览版 | 4.3 | 350ms | 680ms | 65 t/s | ¥2.0 | ¥8.0 | ≈¥0.008 |
| Qwen3 | 3.9 | 240ms | 410ms | 92 t/s | ¥1.2 | ¥6.0 | ≈¥0.005 |
| Claude Sonnet 4.6 | 4.6 | 310ms | 590ms | 71 t/s | $3.0 | $15.0 | ≈¥0.12 |
| GPT-5.5 | 4.4 | 290ms | 550ms | 68 t/s | $2.5 | $10.0 | ≈¥0.08 |
单轮对话均价按平均输入 800 tokens + 输出 400 tokens 估算,美元按 7.2 换算。
Claude Sonnet 4.6 质量确实最高,但一轮对话的成本是 MiniMax M2.5 的 20 倍。这就是老板让我换模型的原因。
第一梯队:DeepSeek V4 预览版 + Claude Sonnet 4.6
DeepSeek V4 预览版是这次测下来最让我意外的。中文多轮对话打了 4.3 分,比 M2.5 高,尤其在用户"反复纠正意图"的场景里,V4 能准确回溯到第 2 轮的上下文重新理解,M2.5 偶尔会丢。
但 V4 预览版有个挺烦人的问题:TTFT 波动大。P50 是 350ms,P95 飙到 680ms,偶尔还蹦出过 1.2s 的离群值。毕竟是预览版,稳定性还得观察。
Claude Sonnet 4.6 不用多说,质量天花板,追问 5 轮以上还能保持逻辑一致性。代价就是贵,真的贵。我算了一下如果全量切过去,一天大概 ¥340,一个月过万。
第二梯队:MiniMax M2.5 + Qwen3 + GPT-5.5
M2.5 的亮点在性价比。4.1 分的中文质量配上 ¥1.0/M 的输入价格,客服、摘要、FAQ 这类不需要极致推理的场景,够用了。实测它的 function calling 也比上一代 M1 稳了不少,JSON 格式返回的成功率从之前的 87% 涨到 96%。
不过有个坑得提一嘴。M2.5 的 system prompt 如果超过 2000 tokens,输出质量会明显下降,回复开始变得啰嗦且重复。我折腾了半天才发现是 system prompt 太长了,砍到 1500 tokens 以内就正常了。这个官方文档没写,我也不确定是不是所有人都会遇到。
Qwen3 速度最快,92 t/s 的输出速度在这几个模型里遥遥领先。价格也最便宜。但中文多轮对话只有 3.9 分,主要扣分在"理解隐含意图"上——用户说"那个之前的方案呢",Qwen3 有时候会搞不清"那个"指的是哪个。
GPT-5.5 质量 4.4 分不错,但价格和 Claude 一个量级,对我这个场景来说性价比不如 DeepSeek V4。OpenAI 的 API 最近也不知道在忙什么,4 月 22 号那天下午我连续收到三次 429 Too Many Requests,差点以为是我代码写炸了。
调用链路与接入方式
graph LR
A[业务代码] --> B{API 接入方式}
B --> C[MiniMax 官方 API]
B --> D[聚合平台<br/>OpenRouter / ofox.ai]
B --> E[云厂商转售]
C --> F[MiniMax M2.5]
D --> F
D --> G[DeepSeek V4]
D --> H[Claude / GPT]
E --> F
MiniMax 官方 API 兼容 OpenAI SDK 格式,切换成本很低。基本就改个 base_url 和 model name 的事:
from openai import OpenAI
# MiniMax 官方
client = OpenAI(
api_key="your-minimax-key",
base_url="https://api.minimaxi.chat/v1"
)
resp = client.chat.completions.create(
model="MiniMax-M2.5",
messages=[
{"role": "system", "content": "你是一个客服助手"},
{"role": "user", "content": "我上周买的耳机左耳没声音了"}
],
temperature=0.7,
max_tokens=1024
)
print(resp.choices[0].message.content)
如果你像我一样需要在多个模型之间来回切换做 A/B 测试,每个厂商单独注册账号、单独充值就很麻烦。我后来是在聚合平台上跑的,OpenRouter 收 5.5% 手续费,ofox.ai 是 0% 加价直接对齐官方价格,改个 base_url 就能在 M2.5、V4、Sonnet 之间切:
# 通过聚合平台调用,一个 key 切多模型
client = OpenAI(
api_key="your-key",
base_url="https://api.ofox.ai/v1"
)
# 只需要改 model 参数
for model in ["MiniMax-M2.5", "deepseek-v4", "claude-sonnet-4.6"]:
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": "测试问题"}]
)
不同需求怎么选
说了这么多,选型逻辑其实不复杂:
日调用量大、对成本敏感、中文场景为主 → MiniMax M2.5 或 Qwen3。M2.5 质量高一档,Qwen3 速度快一档,看你更在意哪个。
需要强推理、多轮复杂对话 → DeepSeek V4 预览版。等正式版出来稳定性应该会好不少。预算够直接上 Claude Sonnet 4.6。
英文为主或者需要 function calling 可靠性 → GPT-5.5 依然是最稳的选择,就是得做好钱包出血的准备。
我最终给客服系统选了 MiniMax M2.5 做主力,复杂 case 走 DeepSeek V4 兜底。跑了一周,日均成本从之前的 ¥340 降到 ¥45 左右。老板终于不念叨了。
小结
M2.5 不是什么划时代的东西,但在中文客服、摘要、简单问答这些场景里,性价比确实打到了一个很舒服的位置。DeepSeek V4 预览版潜力最大,等正式版。Qwen3 适合对延迟极度敏感的场景。Claude 和 GPT 质量没得说,钱包也没得说。
这套方案跑了一周没出大问题,但 M2.5 的 system prompt 长度限制和 V4 的延迟波动,后面还得继续盯。有踩到类似坑的兄弟欢迎评论区交流。