国内调 GPT、Claude、Gemini API,这三条路哪条最省事?
国内用 AI API,绕不开三个问题:
-
• 网络不通,OpenAI 直连超时
-
• 支付搞不定,没海外信用卡
-
• 就算网通了,延迟 3-10 秒,体验拉胯
解法有三条:自建代理、云厂商托管、API 聚合平台。
这篇把三条路的优缺点和代码全讲清楚,附实测延迟数据。
三大痛点先对齐
1. 网络不稳定
OpenAI、Anthropic、Google 的 API 全在海外。国内直连经常超时、SSL 握手失败、流式输出中途断。直连成功率不足 60%,生产环境根本用不了。
2. 支付卡壳
OpenAI 要海外信用卡,Anthropic 要海外手机号,Google Cloud 不支持人民币结算。光注册充值这一关就能劝退一批人。
3. 延迟高
即使网通了,国内直连首字节延迟 3-10 秒。代码补全、实时对话这类场景,体验崩了。
方案一:自建代理
原理:在海外服务器(比如 Cloudflare Workers)部署反向代理,把国内请求转发到 OpenAI。
// worker.js — 部署到 Cloudflare Workers
export default {
async fetch(request) {
const url = new URL(request.url);
url.hostname = 'api.openai.com';
const newRequest = new Request(url, {
method: request.method,
headers: request.headers,
body: request.body,
});
return fetch(newRequest);
}
};
部署后把 base_url 改成你的 Workers 域名就行。
优点:Cloudflare Workers 免费额度够用,成本低。
缺点:
-
• 延迟没降多少,还是 5-10 秒(流量绕了一圈海外)
-
• 只能代理单一厂商,用 GPT 和 Claude 要搭两套
-
• 维护麻烦,IP 段一调整就断
适合:个人探索、技术验证,不适合生产。
方案二:云厂商托管(Azure / Bedrock / Vertex AI)
原理:通过 Azure OpenAI Service、AWS Bedrock、Vertex AI 等企业服务调用模型。
from openai import AzureOpenAI
client = AzureOpenAI(
azure_endpoint="https://your-resource.openai.azure.com/",
api_key="your-azure-key",
api_version="2024-12-01-preview"
)
response = client.chat.completions.create(
model="gpt-5.2",
messages=[{"role": "user", "content": "解释什么是 RAG"}]
)
优点:有 SLA,企业合规友好。
缺点:
-
• 贵,Azure 比官方贵 10-30%
-
• 模型锁定:Azure 只有 OpenAI 模型,想用 Claude 还得开 Bedrock,想用 Gemini 再开 Vertex AI
-
• 维护三套账号、三套 SDK、三套计费
适合:有合规要求的企业项目。
方案三:API 聚合平台(推荐)
原理:国内节点 + 多厂商聚合 + 三协议原生 SDK,只改一行 base_url。
代码改动量极小。三家原生 SDK 各改一行:
OpenAI SDK(GPT-5.2 Responses API)
from openai import OpenAI
client = OpenAI(
base_url="https://code.ai80.vip",
api_key="your-api-key"
)
# 普通调用
response = client.responses.create(
model="openai/gpt-5.2",
input="用 Python 实现一个简单的 RAG 系统",
)
print(response.output_text)
# 流式输出
stream = client.responses.create(
model="openai/gpt-5.2",
input="写一个 Python 装饰器实现函数缓存",
stream=True,
)
for event in stream:
if event.type == "response.output_text.delta":
print(event.delta, end="", flush=True)
Anthropic SDK(Claude Opus 4.6)
import anthropic
client = anthropic.Anthropic(
base_url="https://code.ai80.vip",
api_key="your-api-key"
)
message = client.messages.create(
model="anthropic/claude-opus-4.6",
max_tokens=1024,
messages=[{"role": "user", "content": "用一句话解释什么是 RAG"}],
)
print(message.content[0].text)
# 流式
with client.messages.stream(
model="anthropic/claude-opus-4.6",
max_tokens=1024,
messages=[{"role": "user", "content": "写一个 Python 装饰器实现函数缓存"}],
) as stream:
for text in stream.text_stream:
print(text, end="", flush=True)
Google GenAI SDK(Gemini 3 Flash)
from google import genai
client = genai.Client(
api_key="your-api-key",
http_options={"base_url": "https://code.ai80.vip"}
)
response = client.models.generate_content(
model="google/gemini-3-flash-preview",
contents="用一句话解释什么是 RAG",
)
print(response.text)
三家 SDK 接口不同(responses.create / messages.create / generate_content),但通过聚合平台都能国内直连,extended thinking、2M 上下文、web search 等高级功能全部可用。
三种方案一眼对比
| 对比维度 | 自建代理 | 云厂商托管 | API 聚合平台 | | --- | --- | --- | --- | | 接入难度 | 中 | 中 | 极低(改 base_url) | | 首字节延迟 | 5-10 秒 | 3-5 秒 | 300-800ms | | 模型覆盖 | 单一厂商 | 2-3 个厂商 | 100+ 模型 | | 支付方式 | 需海外信用卡 | 云厂商账单 | 支付宝/微信 | | 月均成本(1M tokens) | ¥50-80 + 服务器 | ¥80-120 | ¥35-60 | | 运维负担 | 高 | 中 | 无 |
2026 主流模型定价
| 模型 | 输入 | 输出 | 上下文 | 适合场景 | | --- | --- | --- | --- | --- | | GPT-5.2 | 14/1M | 256K | OpenAI 旗舰 | | GPT-4o | 10/1M | 128K | 性价比 | | Claude Opus 4.6 | 75/1M | 200K | 最强推理 | | Claude Sonnet 4.6 | 15/1M | 200K | 编码利器 | | Gemini 3.1 Pro | 12/1M | 2M | 超长上下文 | | Gemini 3 Flash | 3/1M | 1M | 极致性价比 | | DeepSeek V3.2 | 1.10/1M | 128K | 国产低成本 |
选型逻辑很简单:
-
• 复杂推理 → Claude Opus 4.6 或 GPT-5.2
-
• 日常对话 / 编码 → Claude Sonnet 4.6 或 GPT-4o
-
• 超长文档 → Gemini 3.1 Pro(2M 上下文)
-
• 预算优先 → DeepSeek V3.2 或 Gemini 3 Flash
Claude Code / Codex CLI / Gemini CLI 怎么接
这三套工具和上面的 SDK 用的是同一套聚合平台,接入方式略有不同:
-
• Claude Code:设置环境变量
ANTHROPIC_BASE_URL -
• Codex CLI:设置
OPENAI_BASE_URL -
• Gemini CLI:在配置里改
http_options.base_url
Claude Code 在代码库理解和长链路修改上更稳,Codex CLI 在命令行自动化场景里更顺,Gemini CLI 处理超长上下文有天然优势。三者各有分工,用同一个 API 聚合平台可以统一管理。Code80 的安装教程里已经把三套工具的接入配置都整理好了,一个 Key 切换所有模型。
总结
三种方案里,API 聚合平台在延迟、支付、模型覆盖上全面优于另外两种,接入成本也最低:
关注我,获取更多 AI 编程实用干货与技巧。
直接使用 AI,可参考:https://code.ai80.vip/home
更多干货文章尽在:https://ai80.net/