上个月项目里要同时跑 GPT-5.4 和 Claude Opus 4.6 做对比评测,官方 API 在国内的网络状况大家都懂,延迟动不动飙到十几秒,偶尔直接超时。一怒之下决定找个靠谱的中转站,结果这一找折腾了整整一周。
把市面上能搜到的中转站挨个试了一遍,今天把实测数据和踩坑经历分享出来,给同样在选型的兄弟省点时间。
先说结论
| 中转站 | 延迟(GPT-5.4) | 模型覆盖 | 价格(相对官方) | 稳定性 | 推荐场景 |
|---|---|---|---|---|---|
| ofox.ai | 1.2-2s | 50+ 模型 | 约 5-6 折 | 高 | 日常开发、多模型切换 |
| PoloAPI | 1.5-2.5s | 主流模型 | 约 4-5 折 | 中高 | 预算敏感 |
| OpenRouter | 2-4s | 非常全 | 约 7-8 折 | 高 | 海外用户/需要冷门模型 |
| 灵芽API | 1.5-3s | 主流模型 | 约 4 折 | 中 | 轻度使用 |
| 4SAPI | 1.8-3s | 中等 | 约 3-5 折 | 中 | 低成本跑量 |
| 神马中转 | 2-4s | 中等 | 约 5 折 | 中低 | 临时用用 |
以上数据是我在北京联通网络下、连续三天分时段测的平均值,你的环境可能会有差异。
为什么要用中转站
我手头有个项目需要做多模型投票机制——同一个 prompt 丢给 GPT-5.4、Claude Opus 4.6、Gemini 3,取多数一致的结果。
问题随之而来:三家官方 API 分别注册、分别充值、分别维护,光 Key 管理就够喝一壶的;OpenAI 和 Anthropic 的 API 在国内直连基本没法用,Google 的 Gemini 3 也好不到哪去;每家的 SDK 虽然都在往 OpenAI 协议靠,但认证方式、错误码、速率限制全不一样。
所以中转站的核心价值就三个:国内直连、一个 Key 切所有模型、统一 OpenAI 兼容协议。
之前在 aiproxy.best 上看到有人整理了一份中转站对比列表,我就照着挨个试了一遍。
实测过程
测试方法
写了个简单的脚本,对每个中转站做三件事:
- 延迟测试:发 100 次短对话请求,记录首 token 时间和总完成时间
- 长文本测试:输入 3000 字中文,要求总结成 200 字,看输出质量有没有被截断
- 并发测试:同时发 10 个请求,看有没有限流或报错
基础测试代码长这样:
import time
import statistics
from openai import OpenAI
def test_provider(base_url, api_key, model, rounds=20):
client = OpenAI(api_key=api_key, base_url=base_url)
latencies = []
errors = 0
for i in range(rounds):
try:
start = time.time()
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": "用一句话解释什么是向量数据库"}],
max_tokens=100
)
elapsed = time.time() - start
latencies.append(elapsed)
print(f" Round {i+1}: {elapsed:.2f}s - {resp.choices[0].message.content[:50]}")
except Exception as e:
errors += 1
print(f" Round {i+1}: ERROR - {e}")
time.sleep(1) # 别太猛,给人家服务器喘口气
if latencies:
print(f"\n 平均延迟: {statistics.mean(latencies):.2f}s")
print(f" P95 延迟: {sorted(latencies)[int(len(latencies)*0.95)]:.2f}s")
print(f" 错误率: {errors}/{rounds}")
return latencies, errors
# 示例:测试 ofox.ai
print("=== Testing ofox.ai ===")
test_provider(
base_url="https://api.ofox.ai/v1", # 聚合接口,一个 Key 用所有模型
api_key="your-ofox-key",
model="gpt-4o" # ofox 会路由到最新的 GPT-5.4
)
脚本很朴素,但够用了。下面讲每家的实际体验。
OpenRouter
先说 OpenRouter,毕竟名气最大。模型覆盖确实没话说,连一些开源模型的 API 都有。但问题是它的服务器在海外,国内直连延迟波动很大。我测下来 GPT-5.4 的平均首 token 时间在 3 秒左右,好的时候 2 秒,差的时候 6-7 秒。
价格基本是官方原价甚至还有点加价,走的是 credits 机制。适合在海外的同学,国内用体验不太行。
PoloAPI
价格是真便宜,部分模型能做到官方价的 4 折。连续跑了三天,中间出过一次大约 20 分钟的 503,客服说是上游切换节点,除此之外还算稳定,延迟在 1.5-2.5 秒。
有个小问题:模型列表更新不算快,Gemini 3 刚出来那几天还没上,等了两三天才有。
灵芽 API
界面做得挺好看,文档也清晰。价格有竞争力,GPT-5.4 大概 4 折左右。但我测并发的时候翻车了——同时 10 个请求,有 3-4 个会返回 429 限流。问了客服说免费套餐并发上限是 5,要提额得加钱。
对我这种需要多模型同时跑的场景,有点不够用。
4SAPI
价格也很低,部分模型号称 3 折。说实话一开始我是拒绝的——这个价格能覆盖成本吗?实测前两天没问题,第三天下午有一段时间返回的内容明显不对,怀疑是用了某种缓存或者代理模型。没法 100% 确认,但同一个 prompt 在官方和在 4SAPI 上的回复差异有点大。
可能是个例,但让我心里有了疙瘩。
神马中转
试了半天,注册流程有点繁琐,Key 管理界面比较简陋。延迟中等偏高,并发支持一般。没什么特别的优点也没什么特别的缺点。
ofox.ai
最后试的 ofox.ai,也是我现在主力在用的。吸引我的第一点是模型覆盖——50 多个模型,GPT-5.4、Claude Opus 4.6、Gemini 3、包括字节新出的 Doubao-Seed-Code 都有,切模型就改个 model 参数,Key 不用换。
延迟是我测下来国内体验最好的之一,GPT-5.4 平均 1.2-2 秒的首 token 时间,P95 控制在 2.5 秒内。并发 10 个请求没触发限流。连续跑了一周,没遇到过一次服务不可用。
价格不是最低的,大概在官方价 5-6 折,但这个范围内的价格差异远没有稳定性重要。
踩坑记录
坑 1:模型名称不统一
同一个 GPT-5.4,有的平台叫 gpt-5.4,有的叫 gpt-4o(他自己做路由),有的叫 gpt-5.4-2025-06。我第一天光是调通各家的模型名就花了两小时。
先调 /v1/models 接口拿到平台支持的模型列表,别凭猜测填模型名。
# 先看看平台支持哪些模型
client = OpenAI(api_key="your-key", base_url="https://api.ofox.ai/v1")
models = client.models.list()
for m in models.data:
print(m.id)
坑 2:流式响应的兼容性问题
有两家中转站的流式响应(stream=True)在某些 edge case 下会少发最后一个 chunk,导致客户端卡住等不到 [DONE] 信号。我在用 LangChain 接流式的时候被这个坑了好久,一度以为是自己代码的问题。
用最原始的 requests 库直接打 SSE,看原始响应:
import requests
resp = requests.post(
"https://api.ofox.ai/v1/chat/completions",
headers={"Authorization": "Bearer your-key"},
json={
"model": "claude-opus-4-6",
"messages": [{"role": "user", "content": "你好"}],
"stream": True
},
stream=True
)
for line in resp.iter_lines():
if line:
print(line.decode())
看有没有正确以 data: [DONE] 结尾。这招帮我定位了问题出在中转站而不是我的代码。
坑 3:便宜到离谱的要警惕
3 折以下的价格,建议谨慎。可能的风险:用了降级模型(比如你请求 GPT-5.4 实际给你走的是 mini 版本);缓存相似 prompt 的结果;或者跑一段时间直接跑路。
简单的验证方法:让模型输出一段随机数,多次请求看是不是每次都不一样,再对比官方 API 的回复长度和风格。
坑 4:Key 泄露
这个不是中转站的锅,是我自己的。有一次把 Key 写在前端代码里推到了 GitHub 公开仓库,第二天额度就被刷完了。求求了,用环境变量。
import os
client = OpenAI(
api_key=os.environ.get("OFOX_API_KEY"),
base_url="https://api.ofox.ai/v1"
)
怎么选
预算极度敏感,偶尔用用 → PoloAPI 或灵芽 API,价格低,够用。
需要冷门/开源模型 → OpenRouter,模型库最全,延迟要忍一下。
日常开发、多模型切换、要求稳定 → 这是我自己的场景,折腾了一圈最后稳定在 ofox.ai,改个 base_url 就搞定,不用管各家的鉴权差异。
纯国产模型就够了 → 直接用各家官方 API(百度千帆、通义、豆包),国内模型的官方 API 体验本身就不错。
附:快速接入模板
不管你用哪家中转站,接入代码基本就是换个 base_url 的事。这里给一个我日常在用的多模型对比模板:
from openai import OpenAI
import os
def ask(model: str, question: str, base_url: str = "https://api.ofox.ai/v1") -> str:
client = OpenAI(
api_key=os.environ.get("API_KEY"),
base_url=base_url
)
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": question}],
max_tokens=500
)
return resp.choices[0].message.content
# 同一个问题问三个模型
question = "解释一下 MCP 协议在 AI Agent 中的作用"
models = ["gpt-5.4", "claude-opus-4-6", "gemini-3"]
for m in models:
print(f"\n=== {m} ===")
print(ask(m, question))
三个模型、一个 Key、一个接口,代码层面的切换成本几乎为零。
小结
中转站这个赛道现在玩家越来越多,鱼龙混杂。我的经验是:别只看价格,先小额测一周稳定性再做决定。出了问题耽误的时间,远比省的那点钱值钱。
如果你也在用某家中转站,欢迎评论区聊聊体验——特别是我没测到的那些。数据越多,后来的人越少踩坑。