4 月 16 日 Claude Opus 4.7 上线、4 月 23 日 GPT-5.5 上线,再加上 2 月已经在用的 Gemini 3.1 Pro——三家旗舰一次性凑齐。我把它们接进自己的几条工作流(终端 Agent / 长仓库审计 / 文档归纳 / 算法题 / 视觉抽取)里跑了一周,结论先抛在前面:没有一家是单一冠军,按任务路由才是省钱姿势。下面是过程,包括 Python 路由代码、踩到的坑,以及国内开发者怎么用一个入口把三家一次性接进项目。
| 任务类型 | 现在用谁 | reasoning 档 | 备注 |
|---|---|---|---|
| 终端 Agent / 多步自动化 | GPT-5.5 | medium | Terminal-Bench 2.0 82.7%,比 Opus 高 13 分 |
| 长仓库审计 / 长文档归纳 | GPT-5.5 | high | MRCR v2 1M 上下文从 36% → 74% |
| 仓库级 Issue 修复 / PR | Claude Opus 4.7 | max effort | SWE-Bench Pro 64.3% 仍然第一 |
| UI / React / CSS 代码 | Claude Opus 4.7 | max effort | UI 层级感公认是 Opus 强 |
| 严格事实问答 / 法律 / 医疗 | Claude Opus 4.7 + RAG | max effort | 36% 幻觉率,是 GPT-5.5 (86%) 的 1/2.4 |
| 算法竞赛 / 数学 / 科学 | Gemini 3.1 Pro | default | LiveCodeBench 2887、GPQA 94.3% |
| PDF / 视频 / 高吞吐分类 | Gemini 3.1 Pro | default | 12 + 2M 上下文,性价比之王 |
| 高吞吐批处理 / 兜底 | DeepSeek V4-Pro 等开源 | — | 成本只有 GPT-5.5 的 ~1/9 |
记住几个关键数字就够:
- AA Intelligence Index v4.0:GPT-5.5 (xhigh) 60,Opus 4.7 / Gemini 3.1 Pro 各 57
- SWE-Bench Pro:Opus 4.7 64.3% > GPT-5.5 58.6% > Gemini 54.2%
- Terminal-Bench 2.0:GPT-5.5 82.7% > Opus 4.7 69.4% > Gemini 68.5%
- AA-Omniscience 幻觉率:GPT-5.5 (xhigh) 86% > Gemini 50% > Opus 4.7 36%
- 跑完整 Index 总成本:Gemini ~1,200 < Opus 4.7 ~$4,400
1. 跑了 7 天,最让我意外的 4 件事
1.1 GPT-5.5 在 Codex 里"真的能干完"
我让它在 Codex 里实现一个 NASA Artemis II 任务的 WebGL 可视化,中途没怎么干预——它自己跑通了 Vite 模板、抓了 JPL Horizons 数据、跑了 e2e 测试、还自己处理了 CORS。Terminal-Bench 2.0 那个 82.7% 落到日常体感就是——"我不用一直盯着它"。同等任务的 token 用量比 GPT-5.4 少 ~40%——这点体感是 confirmed。
1.2 Claude Opus 4.7 在仓库级修复上还是"靠谱"
我把团队上一周积压的 9 个 GitHub Issue 同时丢给两边。Opus 4.7 一次出 patch 直接能合的有 6 个,GPT-5.5 (high) 是 4 个——SWE-Bench Pro 那 5.7 个百分点的差距,落到生产里就是这种感觉。Opus 4.7 的 /ultrareview(自校验模式)跟 prompt caching(90% 缓存折扣)配合起来,体感上是"贵但省心"。
1.3 Gemini 3.1 Pro 是真"性价比刺客"
我把一份 ~1.6M token 的整套微服务仓库(含文档 + 代码)塞给 Gemini 3.1 Pro 让它做架构梳理——它在 token 1.5M 处的类定义还能准确召回。同样的任务给 Opus 4.7(1M 上下文),得切片再拼回去;给 GPT-5.5(1.05M),勉强能塞但要算 >272K 的 2x 价格。Gemini 这一项的总成本,只有另两家的 1/3 到 1/2。
1.4 GPT-5.5 在不知道时还是会"硬答"
这是我对 GPT-5.5 最不放心的部分。AA-Omniscience 的 86% 幻觉率不是吓人——Tom's Guide 跑了 7 项盲测,GPT-5.5 全输给 Opus 4.7,最离谱的一幕是给它一道逻辑无解的题,它非常自信地编了两个解;Opus 直接说"这题无解"。
我自己复刻过一个简单实验:拿一份故意混入两条假设错误的产品需求文档,让三家各做一次细粒度归纳——Opus 4.7 在脚注里点出"这条与第 2 章假设矛盾",Gemini 3.1 Pro 标了"Confidence: Low",GPT-5.5 直接把矛盾合理化进了归纳输出。这种事故落到生产 RAG 上就是大问题。
2. Python 路由代码:抄走即用
OpenAI 兼容协议下,三家可以共用一套 SDK。只切 model 不切 base_url,就能在统一入口里做路由:
from openai import OpenAI
from typing import Literal
BASE_URL = "https://your-gateway/v1" # 国内可换成 OpenAI 兼容中转
API_KEY = "your_unified_key"
client = OpenAI(api_key=API_KEY, base_url=BASE_URL)
ModelTier = Literal["claude-opus-4-7", "gpt-5.5", "gemini-3.1-pro"]
ROUTE = {
"agent": ("gpt-5.5", "medium"),
"longctx": ("gpt-5.5", "high"),
"repo_fix": ("claude-opus-4-7", "high"),
"ui_code": ("claude-opus-4-7", "high"),
"fact_qa": ("claude-opus-4-7", "high"), # 严格事实链路 + RAG
"reasoning": ("gemini-3.1-pro", "default"),
"vision_pdf": ("gemini-3.1-pro", "default"),
"bulk": ("gemini-3.1-pro", "default"),
}
def call(task: str, messages, **kw):
model, effort = ROUTE.get(task, ("claude-opus-4-7", "high"))
return client.chat.completions.create(
model=model,
messages=messages,
reasoning_effort=effort,
max_completion_tokens=kw.pop("max_completion_tokens", 8192),
timeout=kw.pop("timeout", 180),
**kw,
)
# 调用示例
resp = call(
task="repo_fix",
messages=[
{"role": "system", "content": "You are a senior engineer."},
{"role": "user", "content": "下面是一个 traceback,请定位 + 给修复 patch ..."},
],
)
print(resp.choices[0].message.content)
几个我踩过的坑总结:
reasoning_effort默认 medium 就够——xhigh 跑一次的成本能比 medium 高 3-5 倍,多数任务用不上;- GPT-5.5 输入 >272K 会按 2x 计费——做仓库审计前先估 token,别把账单跑爆;
- Opus 4.7 的 prompt caching(90%)必须开——system prompt 不变的链路,能省 1/3 以上账单;
- Gemini 上下文 >200K 后单价翻倍(Pro 2.50,Flash 0.30);
- 三家的限流策略完全不同——OpenAI 按 RPM+TPM、Anthropic 按 RPM+ITPM+OTPM、Google 按 QPM——把限流处理统一在网关层比在业务层做更省事。
3. 几个生产链路上必须做的事
3.1 多模型 reviewer
事实严格的链路(法律 / 医疗 / 金融),我现在的姿势是:GPT-5.5 做执行 → Opus 4.7 做 reviewer → 命中冲突就走 RAG 校验。这是把 86% 幻觉率消化掉的最朴素办法。别让任何一家"单核权限"。
3.2 自动 effort 路由
不是所有任务都要 high / xhigh。我现在按"输入复杂度估分"动态切 effort——多数任务停在 medium,只有命中复杂判断的才升 high/xhigh。这一项能把月度账单压到 60% 以内。
3.3 缓存 + Batch 双管齐下
- Opus 4.7 缓存折扣 90%——system prompt 必开 cache;
- Gemini 50% Batch 折扣——所有非实时链路尽量走批处理;
- GPT-5.5 50% Flex / Batch——夜间任务优先走 Flex。
这三件事做完,月度账单基本能压到原始单价的 40% 以下。
4. 国内开发者怎么把三家一次性接进项目?
直接说现实:OpenAI / Anthropic / Google 三家官方端点在国内都不开放,硬要接的话至少要解决 5 件事:
- 网络出境合规通道(按你所在公司流程走);
- 支付——美元计价,要国际信用卡 / 海外公司账户;Anthropic / OpenAI 都用 Stripe,对中国大陆发卡机构有风控;
- 数据合规——生产数据是否能出境,按行业合规口径单独评估;
- 账单——三家美元 + 汇率 + 海外手续费 + 月度账单口径不统一,财务月底对账头大;
- 发票——开不出人民币增值税发票,企业采购流程顶不住。
如果你是个人开发者 / 中小团队,最现实的路子是用一个 OpenAI 兼容的 API 中转入口——业务代码完全沿用 OpenAI SDK,把 base_url 指向中转入口、Key 换成中转给的 Key,就能在同一个客户端里同时调 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro。
举个例子,词元无忧 API就属于这一档——接口对标 OpenAI 官方协议、按实际用量计费、无预付、无隐性收费、支持人民币与企业级结算。我自己现在的工作流里,PoC / 灰度阶段就是把它当统一入口用:在同一个 SDK 客户端里同时调三家做模型 A/B,再按场景路由——业务代码改一行 base_url 完事,比折腾出境通道 + 国际卡 + 双账套财务流程省事不止一个量级。
只是友情提醒:任何中转 / 网关方案,正式上线前都建议用真实流量灰度跑一周,把 TTFT、p95 延迟、错误码分布、月度账单这些指标对一遍,再决定是否进生产链路。别直接押在生产上。
5. 收尾:三家旗舰,三条路径
把这一周的体感拧成一段话——
- Opus 4.7:仓库级工程 + 视觉 + 低幻觉 + 长写作的"daily driver"。贵,但出活;
- GPT-5.5:Agent + 终端 + 长上下文 + 知识工作的"执行机"。强,但要警惕 86% 幻觉;
- Gemini 3.1 Pro:推理 + 多模态 + 高吞吐 + 长文档的"性价比刺客"。便宜,且 2M 上下文真的能用;
- 三家共用一个统一入口:业务代码不绑定单一上游,下次再出新模型,改一行配置就切。
这一代"旗舰"的关键词不再是"谁第一",而是 "按场景路由 + 统一入口 + 多模型协作"。把这三件事做完,再去看下一波发布会,会从容很多。