MiniMax M2.5 实测：和 DeepSeek V4、Qwen3 打了一架，结果有点意外 🤔作者因预算缩减，对M

上周我们团队在做一个多轮对话的客服系统，老板说预算砍了 40%，让我重新选模型。之前一直用 Claude Sonnet 4.6 跑，效果没话说但成本扛不住。正好 4 月底 MiniMax 发了 M2.5，号称中文场景吊打一众开源模型，我就花了两天把几个候选模型拉出来跑了一遍。

说实话，测完数据我人傻了——不是因为某个模型碾压全场，而是各家的强项和短板差异大得离谱，根本不存在"一个模型打天下"的事。

评测维度

这次评测我关注四个维度：

中文多轮对话质量——客服场景核心，用了 50 组真实用户问题，包含追问、纠正、上下文引用。人工打分 1-5 分。

首 Token 延迟（TTFT）——用户体验的命门。我在香港跑的，每个模型各打 100 次取 P50 和 P95。

输出速度（tokens/s）——长回复场景下用户等不等得住。

千 token 成本——按官方定价算，输入输出分开算，最后折成一个"平均每轮对话成本"。

评测结果

先甩表格，后面再展开聊。

模型	中文多轮对话（5分制）	TTFT P50	TTFT P95	输出速度	输入价格（/M tokens）	输出价格（/M tokens）	单轮对话均价
MiniMax M2.5	4.1	280ms	520ms	78 t/s	¥1.0	¥8.0	≈¥0.006
DeepSeek V4 预览版	4.3	350ms	680ms	65 t/s	¥2.0	¥8.0	≈¥0.008
Qwen3	3.9	240ms	410ms	92 t/s	¥1.2	¥6.0	≈¥0.005
Claude Sonnet 4.6	4.6	310ms	590ms	71 t/s	$3.0	$15.0	≈¥0.12
GPT-5.5	4.4	290ms	550ms	68 t/s	$2.5	$10.0	≈¥0.08

单轮对话均价按平均输入 800 tokens + 输出 400 tokens 估算，美元按 7.2 换算。

Claude Sonnet 4.6 质量确实最高，但一轮对话的成本是 MiniMax M2.5 的 20 倍。这就是老板让我换模型的原因。

第一梯队：DeepSeek V4 预览版 + Claude Sonnet 4.6

DeepSeek V4 预览版是这次测下来最让我意外的。中文多轮对话打了 4.3 分，比 M2.5 高，尤其在用户"反复纠正意图"的场景里，V4 能准确回溯到第 2 轮的上下文重新理解，M2.5 偶尔会丢。

但 V4 预览版有个挺烦人的问题：TTFT 波动大。P50 是 350ms，P95 飙到 680ms，偶尔还蹦出过 1.2s 的离群值。毕竟是预览版，稳定性还得观察。

Claude Sonnet 4.6 不用多说，质量天花板，追问 5 轮以上还能保持逻辑一致性。代价就是贵，真的贵。我算了一下如果全量切过去，一天大概 ¥340，一个月过万。

第二梯队：MiniMax M2.5 + Qwen3 + GPT-5.5

M2.5 的亮点在性价比。4.1 分的中文质量配上 ¥1.0/M 的输入价格，客服、摘要、FAQ 这类不需要极致推理的场景，够用了。实测它的 function calling 也比上一代 M1 稳了不少，JSON 格式返回的成功率从之前的 87% 涨到 96%。

不过有个坑得提一嘴。M2.5 的 system prompt 如果超过 2000 tokens，输出质量会明显下降，回复开始变得啰嗦且重复。我折腾了半天才发现是 system prompt 太长了，砍到 1500 tokens 以内就正常了。这个官方文档没写，我也不确定是不是所有人都会遇到。

Qwen3 速度最快，92 t/s 的输出速度在这几个模型里遥遥领先。价格也最便宜。但中文多轮对话只有 3.9 分，主要扣分在"理解隐含意图"上——用户说"那个之前的方案呢"，Qwen3 有时候会搞不清"那个"指的是哪个。

GPT-5.5 质量 4.4 分不错，但价格和 Claude 一个量级，对我这个场景来说性价比不如 DeepSeek V4。OpenAI 的 API 最近也不知道在忙什么，4 月 22 号那天下午我连续收到三次 429 Too Many Requests，差点以为是我代码写炸了。

调用链路与接入方式

graph LR
 A[业务代码] --> B{API 接入方式}
 B --> C[MiniMax 官方 API]
 B --> D[聚合平台<br/>OpenRouter / ofox.ai]
 B --> E[云厂商转售]
 C --> F[MiniMax M2.5]
 D --> F
 D --> G[DeepSeek V4]
 D --> H[Claude / GPT]
 E --> F

MiniMax 官方 API 兼容 OpenAI SDK 格式，切换成本很低。基本就改个 base_url 和 model name 的事：

from openai import OpenAI

# MiniMax 官方
client = OpenAI(
 api_key="your-minimax-key",
 base_url="https://api.minimaxi.chat/v1"
)

resp = client.chat.completions.create(
 model="MiniMax-M2.5",
 messages=[
 {"role": "system", "content": "你是一个客服助手"},
 {"role": "user", "content": "我上周买的耳机左耳没声音了"}
 ],
 temperature=0.7,
 max_tokens=1024
)
print(resp.choices[0].message.content)

如果你像我一样需要在多个模型之间来回切换做 A/B 测试，每个厂商单独注册账号、单独充值就很麻烦。我后来是在聚合平台上跑的，OpenRouter 收 5.5% 手续费，ofox.ai 是 0% 加价直接对齐官方价格，改个 base_url 就能在 M2.5、V4、Sonnet 之间切：

# 通过聚合平台调用，一个 key 切多模型
client = OpenAI(
 api_key="your-key",
 base_url="https://api.ofox.ai/v1"
)

# 只需要改 model 参数
for model in ["MiniMax-M2.5", "deepseek-v4", "claude-sonnet-4.6"]:
 resp = client.chat.completions.create(
 model=model,
 messages=[{"role": "user", "content": "测试问题"}]
 )

不同需求怎么选

说了这么多，选型逻辑其实不复杂：

日调用量大、对成本敏感、中文场景为主 → MiniMax M2.5 或 Qwen3。M2.5 质量高一档，Qwen3 速度快一档，看你更在意哪个。

需要强推理、多轮复杂对话 → DeepSeek V4 预览版。等正式版出来稳定性应该会好不少。预算够直接上 Claude Sonnet 4.6。

英文为主或者需要 function calling 可靠性 → GPT-5.5 依然是最稳的选择，就是得做好钱包出血的准备。

我最终给客服系统选了 MiniMax M2.5 做主力，复杂 case 走 DeepSeek V4 兜底。跑了一周，日均成本从之前的 ¥340 降到 ¥45 左右。老板终于不念叨了。

小结

M2.5 不是什么划时代的东西，但在中文客服、摘要、简单问答这些场景里，性价比确实打到了一个很舒服的位置。DeepSeek V4 预览版潜力最大，等正式版。Qwen3 适合对延迟极度敏感的场景。Claude 和 GPT 质量没得说，钱包也没得说。

这套方案跑了一周没出大问题，但 M2.5 的 system prompt 长度限制和 V4 的延迟波动，后面还得继续盯。有踩到类似坑的兄弟欢迎评论区交流。