踩坑日记|三家旗舰一周混用:Claude Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro,到底该怎么路由?

0 阅读4分钟

4 月 16 日 Claude Opus 4.7 上线、4 月 23 日 GPT-5.5 上线,再加上 2 月已经在用的 Gemini 3.1 Pro——三家旗舰一次性凑齐。我把它们接进自己的几条工作流(终端 Agent / 长仓库审计 / 文档归纳 / 算法题 / 视觉抽取)里跑了一周,结论先抛在前面:没有一家是单一冠军,按任务路由才是省钱姿势。下面是过程,包括 Python 路由代码、踩到的坑,以及国内开发者怎么用一个入口把三家一次性接进项目。


任务类型现在用谁reasoning 档备注
终端 Agent / 多步自动化GPT-5.5mediumTerminal-Bench 2.0 82.7%,比 Opus 高 13 分
长仓库审计 / 长文档归纳GPT-5.5highMRCR v2 1M 上下文从 36% → 74%
仓库级 Issue 修复 / PRClaude Opus 4.7max effortSWE-Bench Pro 64.3% 仍然第一
UI / React / CSS 代码Claude Opus 4.7max effortUI 层级感公认是 Opus 强
严格事实问答 / 法律 / 医疗Claude Opus 4.7 + RAGmax effort36% 幻觉率,是 GPT-5.5 (86%) 的 1/2.4
算法竞赛 / 数学 / 科学Gemini 3.1 ProdefaultLiveCodeBench 2887、GPQA 94.3%
PDF / 视频 / 高吞吐分类Gemini 3.1 Prodefault2/2/12 + 2M 上下文,性价比之王
高吞吐批处理 / 兜底DeepSeek V4-Pro 等开源成本只有 GPT-5.5 的 ~1/9

记住几个关键数字就够:

  • AA Intelligence Index v4.0:GPT-5.5 (xhigh) 60,Opus 4.7 / Gemini 3.1 Pro 各 57
  • SWE-Bench Pro:Opus 4.7 64.3% > GPT-5.5 58.6% > Gemini 54.2%
  • Terminal-Bench 2.0:GPT-5.5 82.7% > Opus 4.7 69.4% > Gemini 68.5%
  • AA-Omniscience 幻觉率:GPT-5.5 (xhigh) 86% > Gemini 50% > Opus 4.7 36%
  • 跑完整 Index 总成本:Gemini ~900<GPT5.5(med) 900 < GPT-5.5(med) ~1,200 < Opus 4.7 ~$4,400

1. 跑了 7 天,最让我意外的 4 件事

1.1 GPT-5.5 在 Codex 里"真的能干完"

我让它在 Codex 里实现一个 NASA Artemis II 任务的 WebGL 可视化,中途没怎么干预——它自己跑通了 Vite 模板、抓了 JPL Horizons 数据、跑了 e2e 测试、还自己处理了 CORS。Terminal-Bench 2.0 那个 82.7% 落到日常体感就是——"我不用一直盯着它"。同等任务的 token 用量比 GPT-5.4 少 ~40%——这点体感是 confirmed。

1.2 Claude Opus 4.7 在仓库级修复上还是"靠谱"

我把团队上一周积压的 9 个 GitHub Issue 同时丢给两边。Opus 4.7 一次出 patch 直接能合的有 6 个,GPT-5.5 (high) 是 4 个——SWE-Bench Pro 那 5.7 个百分点的差距,落到生产里就是这种感觉。Opus 4.7 的 /ultrareview(自校验模式)跟 prompt caching(90% 缓存折扣)配合起来,体感上是"贵但省心"。

1.3 Gemini 3.1 Pro 是真"性价比刺客"

我把一份 ~1.6M token 的整套微服务仓库(含文档 + 代码)塞给 Gemini 3.1 Pro 让它做架构梳理——它在 token 1.5M 处的类定义还能准确召回。同样的任务给 Opus 4.7(1M 上下文),得切片再拼回去;给 GPT-5.5(1.05M),勉强能塞但要算 >272K 的 2x 价格。Gemini 这一项的总成本,只有另两家的 1/3 到 1/2

1.4 GPT-5.5 在不知道时还是会"硬答"

这是我对 GPT-5.5 最不放心的部分。AA-Omniscience 的 86% 幻觉率不是吓人——Tom's Guide 跑了 7 项盲测,GPT-5.5 全输给 Opus 4.7,最离谱的一幕是给它一道逻辑无解的题,它非常自信地编了两个解;Opus 直接说"这题无解"。

我自己复刻过一个简单实验:拿一份故意混入两条假设错误的产品需求文档,让三家各做一次细粒度归纳——Opus 4.7 在脚注里点出"这条与第 2 章假设矛盾",Gemini 3.1 Pro 标了"Confidence: Low",GPT-5.5 直接把矛盾合理化进了归纳输出。这种事故落到生产 RAG 上就是大问题。


2. Python 路由代码:抄走即用

OpenAI 兼容协议下,三家可以共用一套 SDK。只切 model 不切 base_url,就能在统一入口里做路由

from openai import OpenAI
from typing import Literal

BASE_URL = "https://your-gateway/v1"  # 国内可换成 OpenAI 兼容中转
API_KEY  = "your_unified_key"

client = OpenAI(api_key=API_KEY, base_url=BASE_URL)

ModelTier = Literal["claude-opus-4-7", "gpt-5.5", "gemini-3.1-pro"]

ROUTE = {
    "agent":       ("gpt-5.5",          "medium"),
    "longctx":     ("gpt-5.5",          "high"),
    "repo_fix":    ("claude-opus-4-7",  "high"),
    "ui_code":     ("claude-opus-4-7",  "high"),
    "fact_qa":     ("claude-opus-4-7",  "high"),  # 严格事实链路 + RAG
    "reasoning":   ("gemini-3.1-pro",   "default"),
    "vision_pdf":  ("gemini-3.1-pro",   "default"),
    "bulk":        ("gemini-3.1-pro",   "default"),
}

def call(task: str, messages, **kw):
    model, effort = ROUTE.get(task, ("claude-opus-4-7", "high"))
    return client.chat.completions.create(
        model=model,
        messages=messages,
        reasoning_effort=effort,
        max_completion_tokens=kw.pop("max_completion_tokens", 8192),
        timeout=kw.pop("timeout", 180),
        **kw,
    )

# 调用示例
resp = call(
    task="repo_fix",
    messages=[
        {"role": "system", "content": "You are a senior engineer."},
        {"role": "user",   "content": "下面是一个 traceback,请定位 + 给修复 patch ..."},
    ],
)
print(resp.choices[0].message.content)

几个我踩过的坑总结

  1. reasoning_effort 默认 medium 就够——xhigh 跑一次的成本能比 medium 高 3-5 倍,多数任务用不上;
  2. GPT-5.5 输入 >272K 会按 2x 计费——做仓库审计前先估 token,别把账单跑爆;
  3. Opus 4.7 的 prompt caching(90%)必须开——system prompt 不变的链路,能省 1/3 以上账单;
  4. Gemini 上下文 >200K 后单价翻倍(Pro 1.251.25 → 2.50,Flash 0.150.15 → 0.30);
  5. 三家的限流策略完全不同——OpenAI 按 RPM+TPM、Anthropic 按 RPM+ITPM+OTPM、Google 按 QPM——把限流处理统一在网关层比在业务层做更省事。

3. 几个生产链路上必须做的事

3.1 多模型 reviewer

事实严格的链路(法律 / 医疗 / 金融),我现在的姿势是:GPT-5.5 做执行 → Opus 4.7 做 reviewer → 命中冲突就走 RAG 校验。这是把 86% 幻觉率消化掉的最朴素办法。别让任何一家"单核权限"。

3.2 自动 effort 路由

不是所有任务都要 high / xhigh。我现在按"输入复杂度估分"动态切 effort——多数任务停在 medium,只有命中复杂判断的才升 high/xhigh。这一项能把月度账单压到 60% 以内。

3.3 缓存 + Batch 双管齐下

  • Opus 4.7 缓存折扣 90%——system prompt 必开 cache;
  • Gemini 50% Batch 折扣——所有非实时链路尽量走批处理;
  • GPT-5.5 50% Flex / Batch——夜间任务优先走 Flex。

这三件事做完,月度账单基本能压到原始单价的 40% 以下。


4. 国内开发者怎么把三家一次性接进项目?

直接说现实:OpenAI / Anthropic / Google 三家官方端点在国内都不开放,硬要接的话至少要解决 5 件事:

  1. 网络出境合规通道(按你所在公司流程走);
  2. 支付——美元计价,要国际信用卡 / 海外公司账户;Anthropic / OpenAI 都用 Stripe,对中国大陆发卡机构有风控;
  3. 数据合规——生产数据是否能出境,按行业合规口径单独评估;
  4. 账单——三家美元 + 汇率 + 海外手续费 + 月度账单口径不统一,财务月底对账头大;
  5. 发票——开不出人民币增值税发票,企业采购流程顶不住。

如果你是个人开发者 / 中小团队,最现实的路子是用一个 OpenAI 兼容的 API 中转入口——业务代码完全沿用 OpenAI SDK,把 base_url 指向中转入口、Key 换成中转给的 Key,就能在同一个客户端里同时调 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro。

举个例子,词元无忧 API就属于这一档——接口对标 OpenAI 官方协议、按实际用量计费、无预付、无隐性收费、支持人民币与企业级结算。我自己现在的工作流里,PoC / 灰度阶段就是把它当统一入口用:在同一个 SDK 客户端里同时调三家做模型 A/B,再按场景路由——业务代码改一行 base_url 完事,比折腾出境通道 + 国际卡 + 双账套财务流程省事不止一个量级。

只是友情提醒:任何中转 / 网关方案,正式上线前都建议用真实流量灰度跑一周,把 TTFT、p95 延迟、错误码分布、月度账单这些指标对一遍,再决定是否进生产链路。别直接押在生产上


5. 收尾:三家旗舰,三条路径

把这一周的体感拧成一段话——

  • Opus 4.7:仓库级工程 + 视觉 + 低幻觉 + 长写作的"daily driver"。贵,但出活;
  • GPT-5.5:Agent + 终端 + 长上下文 + 知识工作的"执行机"。强,但要警惕 86% 幻觉;
  • Gemini 3.1 Pro:推理 + 多模态 + 高吞吐 + 长文档的"性价比刺客"。便宜,且 2M 上下文真的能用;
  • 三家共用一个统一入口:业务代码不绑定单一上游,下次再出新模型,改一行配置就切。

这一代"旗舰"的关键词不再是"谁第一",而是 "按场景路由 + 统一入口 + 多模型协作"。把这三件事做完,再去看下一波发布会,会从容很多。