上个月我们团队做技术选型,老板丢了句"把市面上能打的模型都跑一遍,下周一给我结论"。我花了整整一周,拿公司真实业务 prompt(RAG 问答 + 代码生成 + 长文档摘要)把主流模型挨个跑了一轮。测完数据我人傻了——有些模型宣传得天花乱坠,实际表现拉胯;有些低调的反而稳得离谱。
这篇把我的测试方法和结果全部摊开,数据截止到 4 月 22 号。
评测维度说明
我不信 benchmark 那套,MMLU 刷到 90+ 的模型实际写业务代码可能漏洞百出。所以我设计了三个贴近真实开发的维度:
- 代码生成:给 50 道 LeetCode Medium + 20 个真实 PR review 场景,看 pass@1
- 长文档理解:扔 3 份 8 万字的技术文档进去,问 10 个细节问题,人工打分
- API 响应延迟:同一个 prompt 跑 100 次取 P50/P95(香港,排除网络抖动)
所有模型统一走 OpenAI 兼容协议调用,temperature 0.3,max_tokens 4096。
评测结果天梯图
| 模型 | 代码 pass@1 | 长文档准确率 | P50 延迟 | P95 延迟 | 输入价格 ($/1M tokens) | 输出价格 ($/1M tokens) | 综合评级 |
|---|---|---|---|---|---|---|---|
| Claude Opus 4.7 | 87.1% | 94% | 680ms | 1420ms | $15 | $75 | S |
| GPT-5.5 | 84.3% | 91% | 520ms | 980ms | $10 | $30 | S |
| Gemini 3.1 Pro | 79.6% | 89% | 440ms | 870ms | $7 | $21 | A+ |
| Claude Sonnet 4.6 | 81.2% | 88% | 390ms | 720ms | $3 | $15 | A+ |
| DeepSeek V4 预览版 | 80.8% | 86% | 610ms | 1350ms | $2.2 | $8.8 | A |
| Qwen3 | 74.5% | 83% | 320ms | 580ms | $1.6 | $6.4 | A |
| GLM-5 | 72.1% | 81% | 290ms | 510ms | $1.4 | $5.6 | B+ |
| Llama 4 (405B) | 76.3% | 79% | 550ms | 1100ms | $2.8 | $8.4 | B+ |
| Grok 4.1 | 75.8% | 82% | 710ms | 1580ms | $5 | $15 | B |
| K2.6 | 71.4% | 85% | 340ms | 620ms | $1.8 | $7.2 | B |
Claude Opus 4.7 在代码生成上的表现让我有点意外。之前 Sonnet 系列就够强了,Opus 这次直接把 pass@1 拉到 87%,尤其是复杂递归和并发场景,生成的代码几乎不用改。
第一梯队详解
Claude Opus 4.7 —— 代码之王,但贵得肉疼
跑完 50 道 LeetCode 题,Opus 4.7 只错了 6 道半(有一道逻辑对但边界条件漏了一个)。长文档理解更夸张,8 万字的 K8s 源码文档里问一个三层嵌套的配置项,它能精确定位到段落。
缺点很明显:贵。输出 $75/1M tokens,我们团队一天大概消耗 2M 输出 token,算下来一天光 Opus 就要 ¥1080 左右。延迟也偏高,P95 到 1420ms,交互式场景体验一般。
GPT-5.5 —— 均衡选手,OpenAI 服务器最近不知道在忙什么
综合能力没话说,代码、理解、推理都在第一梯队。但 4 月中旬有两天 P95 飙到 2s+,我一度以为是我代码写炸了,后来看 status page 才发现是他们在扩容。稳定性这块确实不如去年了。
价格比 Opus 友好不少,输出 $30/1M tokens,日均成本大概 ¥430。
第二梯队详解
Claude Sonnet 4.6 —— 性价比杀手
如果不是极端复杂的推理场景,Sonnet 4.6 够用了。代码 pass@1 有 81.2%,和 GPT-5.5 只差 3 个百分点,但价格只有它的一半。我们项目 80% 的日常调用最后都切到了 Sonnet。
DeepSeek V4 预览版 —— 4 月 24 号刚上线,还在观察
跑了三天数据,代码能力确实强(80.8%),价格也香。但"预览版"三个字让我不太敢在生产环境用。有一次返回的 JSON 莫名多了个逗号:
{"result": "success", "data": [...],} // 尾逗号,JSON.parse 直接炸
报错信息:SyntaxError: Unexpected token } in JSON at position 4827
这种问题 100 次里出现了 3 次,频率不高但足够让你的 pipeline 半夜告警。正式版会不会修复我不确定,先观望。
Qwen3 和 GLM-5 —— 延迟低得离谱
Qwen3 的 P50 只有 320ms,GLM-5 更是 290ms。如果你的场景对延迟极度敏感(比如实时对话、打字机效果),这俩是目前最快的选择。代码能力差一档,但做客服、摘要、翻译绰绰有余。
调用链路与延迟分布
graph TD
A[业务代码] --> B{API 网关选择}
B -->|官方直连| C[OpenAI / Anthropic / Google]
B -->|聚合平台| D[OpenRouter / ofox.ai / Together AI]
C --> E[模型推理]
D --> E
E --> F[响应返回]
style D fill:#e8f4e8
style C fill:#fff3e0
实际测试中,走聚合平台和官方直连的延迟差异在 20-50ms 以内(香港),基本可以忽略。聚合平台的好处是一个 Key 切模型不用改代码,尤其是 A/B 测试阶段频繁换模型的时候。
月成本估算(按日均 2M 输出 token)
| 模型 | 日成本 (¥) | 月成本 (¥) | 适用场景 |
|---|---|---|---|
| Claude Opus 4.7 | ¥1,080 | ¥32,400 | 核心代码生成、复杂推理 |
| GPT-5.5 | ¥430 | ¥12,900 | 通用任务、产品原型 |
| Claude Sonnet 4.6 | ¥216 | ¥6,480 | 日常开发、批量处理 |
| DeepSeek V4 | ¥127 | ¥3,810 | 预算有限的代码辅助 |
| Qwen3 | ¥92 | ¥2,760 | 实时对话、客服 |
差距是真的大。Opus 一个月三万二,Qwen3 不到三千。所以我们最终的方案是分层调用——复杂任务走 Opus/GPT-5.5,日常走 Sonnet,实时交互走 Qwen3。
不同需求怎么选
追求代码质量、预算充足:Claude Opus 4.7,没有对手。
均衡型团队(大多数人):Claude Sonnet 4.6 做主力 + GPT-5.5 做兜底。我们跑了两周这个组合,综合成本降了 40%,质量没有明显下降。
延迟敏感场景:Qwen3 或 GLM-5,P95 都在 600ms 以内。
个人开发者 / side project:DeepSeek V4 预览版等它稳定后应该是最香的。现阶段用 V3.2 稳定版也行,代码能力差一点但不会给你整幺蛾子。
折腾模型切换的时候我用的是 ofox.ai 和 OpenRouter 这类聚合平台——ofox 是 0% 加价直接对齐各家官方价格,OpenRouter 收 5.5% 手续费但模型覆盖面稍广一些,改个 base_url 就能在不同模型间来回切,省得每家都注册一遍账号。
小结
跑完这轮测试我最大的感受是:2026 年选模型不能只看排行榜了,得看你的具体场景。我们团队最终落地的方案是三层路由——按任务复杂度自动分发到不同模型,月成本从纯用 Opus 的三万多压到了一万出头。
以上数据基于我们的业务 prompt,你的场景可能结论不同。建议拿自己的真实 case 跑一遍再做决定,别光信别人的 benchmark。反正我是不信了。