上个月我们团队 5 个人的 Cursor Business 到期了,续费的时候老板说"你们每个人每天 500 次 premium request 根本不够用,能不能自己接 API,按量付费反而便宜"。行吧,那就得选一个聚合平台把 Claude Sonnet 4.6 和 GPT-5.5 都接进来。
我前后折腾了三家——OpenRouter、Together AI、ofox.ai,花了大概一周时间跑数据。测之前我以为差距不大,测完数据我人傻了,延迟差异比我想象的大得多。这篇就把实测过程和结论全摊开。
评测维度说明
我不搞那种跑一两次就下结论的事。每个平台每个模型跑了 100 次请求(工作日下午 2-5 点,算是高峰时段),记录 P50 / P95 / 失败率。测试脚本用 Python + httpx 写的,prompt 统一用一段 800 token 左右的代码请求。
核心关注四个维度:
- 首 token 延迟(TTFT):Cursor 里体感最明显的就是这个,等太久人会烦
- 稳定性:100 次里有几次 429 / 502 / timeout
- 价格:同模型的 input/output 单价,有没有额外手续费
- 配置复杂度:改 base_url 能不能直接跑,有没有奇怪的鉴权格式
评测结果总表
先上硬数据,后面再展开聊:
| 维度 | OpenRouter | Together AI | ofox.ai |
|---|---|---|---|
| Claude Sonnet 4.6 TTFT P50 | 680ms | ❌ 不支持 | 310ms |
| Claude Sonnet 4.6 TTFT P95 | 1420ms | ❌ 不支持 | 520ms |
| GPT-5.5 TTFT P50 | 450ms | 390ms | 340ms |
| GPT-5.5 TTFT P95 | 980ms | 710ms | 490ms |
| Llama 4 70B TTFT P50 | 280ms | 210ms | 260ms |
| 100 次请求失败数(Claude) | 3 次 429 | — | 0 |
| 100 次请求失败数(GPT) | 1 次 timeout | 2 次 502 | 1 次 timeout |
| 额外手续费 | 5.5% | 0% | 0% |
| OpenAI SDK 兼容 | ✅ | ✅ | ✅ |
| Cursor 配置难度 | 简单 | 需改 model name | 简单 |
测试时间:2026 年 4 月 21-25 日,下午高峰时段
闭源模型体验
先说大家最关心的 Claude Sonnet 4.6。写代码主力模型,Cursor Tab 补全和 Composer 都重度依赖它。
OpenRouter 的 Claude 走的是 Anthropic 官方通道,但 P95 飙到 1420ms 有点离谱。我翻了一下他们的 status page,4 月 22 号那天下午确实有一次 degraded performance。另外 OpenRouter 那个 5.5% 的手续费是真的疼——Claude Sonnet 4.6 官方价 15(input/output per 1M tokens),OpenRouter 实际扣费是 15.825。一个月下来我们团队 5 个人能差出好几十刀。
有一次还碰到这个报错:
Error: 429 Too Many Requests
{"error":{"message":"Rate limit exceeded for anthropic/claude-sonnet-4.6. Please retry after 12s","code":429}}
12 秒的冷却,写代码写到一半突然卡住,挺烦人的。
Together AI 直接不支持 Claude 系列(它主要做开源模型推理),所以如果你主力用 Claude 写代码,Together AI 直接 pass。
ofox.ai 的 Claude 走的是 Anthropic 和 AWS Bedrock 官方授权通道,P50 在 310ms 左右,P95 也就 520ms,100 次零失败。说实话一开始我是不信的,又跑了一轮,结果差不多。0% 加价对齐官方价格,跟 OpenRouter 的 5.5% 手续费比确实有差距。
GPT-5.5 三家都能跑。Together AI 的 P50 不错(390ms),但 P95 偶尔会抽风到 710ms,而且碰到过两次 502:
HTTP 502 Bad Gateway
{"error":"upstream connect error or disconnect/reset before headers"}
开源模型
如果你主要用 Llama 4 或者 DeepSeek V4 预览版这类开源模型,Together AI 反而是强项。它的 Llama 4 70B 推理速度确实快,P50 只有 210ms,自建推理集群的优势在这里。
不过 DeepSeek V4 预览版刚上线没多久(4 月 24 号),Together AI 还没接入,OpenRouter 倒是第一时间上了。
调用链路对比
graph LR
A[Cursor IDE] -->|base_url 替换| B{聚合平台}
B -->|OpenRouter| C[5.5% 手续费<br/>Anthropic/OpenAI 通道]
B -->|Together AI| D[0% 手续费<br/>自建推理集群<br/>仅开源模型]
B -->|ofox.ai| E[0% 手续费<br/>官方授权通道<br/>闭源+开源]
C --> F[Claude / GPT]
D --> G[Llama / Mistral]
E --> H[Claude / GPT / Llama / DeepSeek]
Cursor 配置实操
三家的配置方式大同小异,都是改 ~/.cursor/config.json 或者在 Settings > Models 里填。以 ofox.ai 为例(其他两家把 base_url 和 key 换掉就行):
{
"openai.api.base_url": "https://api.ofox.ai/v1",
"openai.api.key": "sk-your-key-here"
}
Python 里验证一下连通性:
from openai import OpenAI
client = OpenAI(
api_key="sk-your-key-here",
base_url="https://api.ofox.ai/v1"
)
resp = client.chat.completions.create(
model="claude-sonnet-4.6",
messages=[{"role": "user", "content": "写一个快排"}],
stream=True
)
for chunk in resp:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
OpenRouter 有个坑:它的 model name 格式是 anthropic/claude-sonnet-4.6,带了个 provider 前缀。Cursor 的 model picker 里选不到这个格式,得手动在配置文件里写死。Together AI 更麻烦,它的 model name 是 meta-llama/Llama-4-70B-Instruct,而且不支持 Claude,所以你没法在 Cursor 里同时用 Claude 和 Llama。
踩坑记录
坑 1:OpenRouter 的 streaming 偶发断流
大概每 30-40 次请求会碰到一次 streaming 中途断掉,Cursor 那边表现就是补全写到一半突然停了。查了 OpenRouter 的 Discord,有人说是他们的 load balancer 在高峰期会 reset connection。我不确定这是不是普遍问题,可能跟我的网络环境也有关。
坑 2:Together AI 的 function calling 格式
Together AI 的 function calling 返回格式和 OpenAI 标准有细微差异,tool_calls 里的 arguments 偶尔会返回非标准 JSON。Cursor 的 Composer 模式重度依赖 function calling,这个差异导致我有两次生成的代码直接是乱的。
报错长这样:
json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)
坑 3:Cursor 缓存旧 base_url
改完配置文件后 Cursor 不会立即生效,得完全退出再重启。我折腾了半天以为是 API key 的问题,结果就是缓存没刷新。
月成本估算
按我们团队实际用量算(5 人,每人每天约 200 次请求,平均每次 1500 input + 2000 output tokens,主力 Claude Sonnet 4.6):
| 费用项 | OpenRouter | ofox.ai |
|---|---|---|
| Claude Sonnet 4.6 input | $3.165/M | $3/M |
| Claude Sonnet 4.6 output | $15.825/M | $15/M |
| 月 input tokens(约 45M) | $142.4 | $135 |
| 月 output tokens(约 60M) | $949.5 | $900 |
| 月总计 | $1,091.9 | $1,035 |
| 差额 | — | 省 $56.9/月 |
算下来一天每人大概 ¥47(按 ¥7.2 汇率)。OpenRouter 那边因为 5.5% 手续费,一个月多出来 $56.9,约 ¥410。不算多但也不算少,够请全组喝两轮咖啡了。
Together AI 没列是因为它不支持 Claude,没法直接比。如果你只用 Llama 4,Together AI 的价格确实有竞争力。
不同需求怎么选
你主力用 Claude 写代码 → OpenRouter 或 ofox.ai 都行,在意延迟和手续费选后者
你主力用开源模型 → Together AI 的推理速度确实快,Llama 4 体验最好
团队多人共用、需要用量审计 → ofox.ai 有按 User / API Key 维度的用量管理后台,能看到每个人调了哪些模型、花了多少钱;OpenRouter 的 dashboard 只能看总量
预算紧张、偶尔用用 → OpenRouter 有免费额度可以先试,但长期用手续费会累积
小结
跑了一周数据下来,聚合平台之间的差异比我预期的大。延迟、稳定性、模型覆盖范围、计费方式,每一项都会影响你在 Cursor 里的实际体验。
我们团队最后的方案是闭源模型走 ofox.ai(主要图 Claude 延迟低 + 没有额外手续费),开源模型偶尔切 Together AI 跑 Llama 4。OpenRouter 留着当备用,毕竟它模型最全,有些小众模型只有它有。
这套配置跑了两周了,目前没啥大问题。唯一不确定的是长期稳定性——两周样本还是太短,后面如果有变化我再更新。