踩坑日记｜三家旗舰一周混用：Claude Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro，到底该怎么路由？

4 月 16 日 Claude Opus 4.7 上线、4 月 23 日 GPT-5.5 上线，再加上 2 月已经在用的 Gemini 3.1 Pro——三家旗舰一次性凑齐。我把它们接进自己的几条工作流（终端 Agent / 长仓库审计 / 文档归纳 / 算法题 / 视觉抽取）里跑了一周，结论先抛在前面：没有一家是单一冠军，按任务路由才是省钱姿势。下面是过程，包括 Python 路由代码、踩到的坑，以及国内开发者怎么用一个入口把三家一次性接进项目。

任务类型	现在用谁	reasoning 档	备注
终端 Agent / 多步自动化	GPT-5.5	medium	Terminal-Bench 2.0 82.7%，比 Opus 高 13 分
长仓库审计 / 长文档归纳	GPT-5.5	high	MRCR v2 1M 上下文从 36% → 74%
仓库级 Issue 修复 / PR	Claude Opus 4.7	max effort	SWE-Bench Pro 64.3% 仍然第一
UI / React / CSS 代码	Claude Opus 4.7	max effort	UI 层级感公认是 Opus 强
严格事实问答 / 法律 / 医疗	Claude Opus 4.7 + RAG	max effort	36% 幻觉率，是 GPT-5.5 (86%) 的 1/2.4
算法竞赛 / 数学 / 科学	Gemini 3.1 Pro	default	LiveCodeBench 2887、GPQA 94.3%
PDF / 视频 / 高吞吐分类	Gemini 3.1 Pro	default	$2/$ 12 + 2M 上下文，性价比之王
高吞吐批处理 / 兜底	DeepSeek V4-Pro 等开源	—	成本只有 GPT-5.5 的 ~1/9

记住几个关键数字就够：

AA Intelligence Index v4.0：GPT-5.5 (xhigh) 60，Opus 4.7 / Gemini 3.1 Pro 各 57
SWE-Bench Pro：Opus 4.7 64.3% > GPT-5.5 58.6% > Gemini 54.2%
Terminal-Bench 2.0：GPT-5.5 82.7% > Opus 4.7 69.4% > Gemini 68.5%
AA-Omniscience 幻觉率：GPT-5.5 (xhigh) 86% > Gemini 50% > Opus 4.7 36%
跑完整 Index 总成本：Gemini ~ $900 < GPT-5.5(med) ~$ 1,200 < Opus 4.7 ~$4,400

1. 跑了 7 天，最让我意外的 4 件事

1.1 GPT-5.5 在 Codex 里"真的能干完"

我让它在 Codex 里实现一个 NASA Artemis II 任务的 WebGL 可视化，中途没怎么干预——它自己跑通了 Vite 模板、抓了 JPL Horizons 数据、跑了 e2e 测试、还自己处理了 CORS。Terminal-Bench 2.0 那个 82.7% 落到日常体感就是——"我不用一直盯着它"。同等任务的 token 用量比 GPT-5.4 少 ~40%——这点体感是 confirmed。

1.2 Claude Opus 4.7 在仓库级修复上还是"靠谱"

我把团队上一周积压的 9 个 GitHub Issue 同时丢给两边。Opus 4.7 一次出 patch 直接能合的有 6 个，GPT-5.5 (high) 是 4 个——SWE-Bench Pro 那 5.7 个百分点的差距，落到生产里就是这种感觉。Opus 4.7 的 /ultrareview（自校验模式）跟 prompt caching（90% 缓存折扣）配合起来，体感上是"贵但省心"。

1.3 Gemini 3.1 Pro 是真"性价比刺客"

我把一份 ~1.6M token 的整套微服务仓库（含文档 + 代码）塞给 Gemini 3.1 Pro 让它做架构梳理——它在 token 1.5M 处的类定义还能准确召回。同样的任务给 Opus 4.7（1M 上下文），得切片再拼回去；给 GPT-5.5（1.05M），勉强能塞但要算 >272K 的 2x 价格。Gemini 这一项的总成本，只有另两家的 1/3 到 1/2。

1.4 GPT-5.5 在不知道时还是会"硬答"

这是我对 GPT-5.5 最不放心的部分。AA-Omniscience 的 86% 幻觉率不是吓人——Tom's Guide 跑了 7 项盲测，GPT-5.5 全输给 Opus 4.7，最离谱的一幕是给它一道逻辑无解的题，它非常自信地编了两个解；Opus 直接说"这题无解"。

我自己复刻过一个简单实验：拿一份故意混入两条假设错误的产品需求文档，让三家各做一次细粒度归纳——Opus 4.7 在脚注里点出"这条与第 2 章假设矛盾"，Gemini 3.1 Pro 标了"Confidence: Low"，GPT-5.5 直接把矛盾合理化进了归纳输出。这种事故落到生产 RAG 上就是大问题。

2. Python 路由代码：抄走即用

OpenAI 兼容协议下，三家可以共用一套 SDK。只切 model 不切 base_url，就能在统一入口里做路由：

from openai import OpenAI
from typing import Literal

BASE_URL = "https://your-gateway/v1"  # 国内可换成 OpenAI 兼容中转
API_KEY  = "your_unified_key"

client = OpenAI(api_key=API_KEY, base_url=BASE_URL)

ModelTier = Literal["claude-opus-4-7", "gpt-5.5", "gemini-3.1-pro"]

ROUTE = {
    "agent":       ("gpt-5.5",          "medium"),
    "longctx":     ("gpt-5.5",          "high"),
    "repo_fix":    ("claude-opus-4-7",  "high"),
    "ui_code":     ("claude-opus-4-7",  "high"),
    "fact_qa":     ("claude-opus-4-7",  "high"),  # 严格事实链路 + RAG
    "reasoning":   ("gemini-3.1-pro",   "default"),
    "vision_pdf":  ("gemini-3.1-pro",   "default"),
    "bulk":        ("gemini-3.1-pro",   "default"),
}

def call(task: str, messages, **kw):
    model, effort = ROUTE.get(task, ("claude-opus-4-7", "high"))
    return client.chat.completions.create(
        model=model,
        messages=messages,
        reasoning_effort=effort,
        max_completion_tokens=kw.pop("max_completion_tokens", 8192),
        timeout=kw.pop("timeout", 180),
        **kw,
    )

# 调用示例
resp = call(
    task="repo_fix",
    messages=[
        {"role": "system", "content": "You are a senior engineer."},
        {"role": "user",   "content": "下面是一个 traceback，请定位 + 给修复 patch ..."},
    ],
)
print(resp.choices[0].message.content)

几个我踩过的坑总结：

reasoning_effort 默认 medium 就够——xhigh 跑一次的成本能比 medium 高 3-5 倍，多数任务用不上；
GPT-5.5 输入 >272K 会按 2x 计费——做仓库审计前先估 token，别把账单跑爆；
Opus 4.7 的 prompt caching（90%）必须开——system prompt 不变的链路，能省 1/3 以上账单；
Gemini 上下文 >200K 后单价翻倍（Pro $1.25 →$ 2.50，Flash $0.15 →$ 0.30）；
三家的限流策略完全不同——OpenAI 按 RPM+TPM、Anthropic 按 RPM+ITPM+OTPM、Google 按 QPM——把限流处理统一在网关层比在业务层做更省事。

3. 几个生产链路上必须做的事

3.1 多模型 reviewer

事实严格的链路（法律 / 医疗 / 金融），我现在的姿势是：GPT-5.5 做执行 → Opus 4.7 做 reviewer → 命中冲突就走 RAG 校验。这是把 86% 幻觉率消化掉的最朴素办法。别让任何一家"单核权限"。

3.2 自动 effort 路由

不是所有任务都要 high / xhigh。我现在按"输入复杂度估分"动态切 effort——多数任务停在 medium，只有命中复杂判断的才升 high/xhigh。这一项能把月度账单压到 60% 以内。

3.3 缓存 + Batch 双管齐下

Opus 4.7 缓存折扣 90%——system prompt 必开 cache；
Gemini 50% Batch 折扣——所有非实时链路尽量走批处理；
GPT-5.5 50% Flex / Batch——夜间任务优先走 Flex。

这三件事做完，月度账单基本能压到原始单价的 40% 以下。

4. 国内开发者怎么把三家一次性接进项目？

直接说现实：OpenAI / Anthropic / Google 三家官方端点在国内都不开放，硬要接的话至少要解决 5 件事：

网络出境合规通道（按你所在公司流程走）；
支付——美元计价，要国际信用卡 / 海外公司账户；Anthropic / OpenAI 都用 Stripe，对中国大陆发卡机构有风控；
数据合规——生产数据是否能出境，按行业合规口径单独评估；
账单——三家美元 + 汇率 + 海外手续费 + 月度账单口径不统一，财务月底对账头大；
发票——开不出人民币增值税发票，企业采购流程顶不住。

如果你是个人开发者 / 中小团队，最现实的路子是用一个 OpenAI 兼容的 API 中转入口——业务代码完全沿用 OpenAI SDK，把 base_url 指向中转入口、Key 换成中转给的 Key，就能在同一个客户端里同时调 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro。

举个例子，词元无忧 API就属于这一档——接口对标 OpenAI 官方协议、按实际用量计费、无预付、无隐性收费、支持人民币与企业级结算。我自己现在的工作流里，PoC / 灰度阶段就是把它当统一入口用：在同一个 SDK 客户端里同时调三家做模型 A/B，再按场景路由——业务代码改一行 base_url 完事，比折腾出境通道 + 国际卡 + 双账套财务流程省事不止一个量级。

只是友情提醒：任何中转 / 网关方案，正式上线前都建议用真实流量灰度跑一周，把 TTFT、p95 延迟、错误码分布、月度账单这些指标对一遍，再决定是否进生产链路。别直接押在生产上。

5. 收尾：三家旗舰，三条路径

把这一周的体感拧成一段话——

Opus 4.7：仓库级工程 + 视觉 + 低幻觉 + 长写作的"daily driver"。贵，但出活；
GPT-5.5：Agent + 终端 + 长上下文 + 知识工作的"执行机"。强，但要警惕 86% 幻觉；
Gemini 3.1 Pro：推理 + 多模态 + 高吞吐 + 长文档的"性价比刺客"。便宜，且 2M 上下文真的能用；
三家共用一个统一入口：业务代码不绑定单一上游，下次再出新模型，改一行配置就切。

这一代"旗舰"的关键词不再是"谁第一"，而是 "按场景路由 + 统一入口 + 多模型协作"。把这三件事做完，再去看下一波发布会，会从容很多。