上个月我们团队在做一个多模态文档解析的项目,老板说"选个性价比最高的模型当主力"。我一开始觉得 GPT-5.5 稳赢,毕竟 OpenAI 的生态摆在那儿。结果实测完数据我人傻了——Gemini 3.1 Pro 在好几个维度上直接反超,尤其是长上下文和多模态理解这块。
这篇把我这两周的测试数据全部摊开,顺便把调用链路上的坑也记一下。
评测维度说明
我不搞那种跑 MMLU 刷分的评测,没意义。实际开发中我关心的就这几个:
- 响应延迟(首 token 时间 + 完整输出时间)
- 长文本处理(100K+ token 输入的稳定性)
- 代码生成质量(Python/TypeScript 实际可运行率)
- 多模态能力(图片理解 + 文档解析)
- 价格(按实际调用量算月成本)
- API 稳定性(429 频率、超时率)
测试环境:香港 ECS,Python 3.12,openai SDK 1.52.0。每个场景跑 50 次取中位数。
评测结果天梯图
| 维度 | Gemini 3.1 Pro | GPT-5.5 | 备注 |
|---|---|---|---|
| 首 token 延迟(P50) | 280ms | 410ms | Gemini 快了将近一半 |
| 首 token 延迟(P95) | 520ms | 890ms | GPT 尾部延迟波动大 |
| 128K 输入稳定性 | 98% 成功率 | 94% 成功率 | GPT 偶发 timeout |
| 代码可运行率(Python) | 82% | 87% | GPT 略优 |
| 代码可运行率(TS) | 79% | 85% | 同上 |
| 图片理解准确率 | 91% | 88% | Gemini 多模态确实强 |
| 文档 OCR + 结构化 | 93% | 86% | Gemini 大幅领先 |
| 输入价格(/1M tokens) | $1.25 | $2.50 | Gemini 便宜一半 |
| 输出价格(/1M tokens) | $5.00 | $10.00 | 同上 |
| 上下文窗口 | 2M tokens | 256K tokens | 差距巨大 |
说实话测完这组数据我对 Gemini 的印象完全改观了。之前总觉得 Google 的 API 体验拉胯,但 3.1 Pro 这一版确实不一样。
各有所长
Gemini 3.1 Pro 的杀手锏
长上下文 + 多模态。我们那个文档解析的场景,一份 PDF 转出来经常 80K-150K tokens,GPT-5.5 偶尔会 timeout:
openai.APITimeoutError: Request timed out after 120.0 seconds
Gemini 基本没出现过这个问题。而且它处理表格图片的能力确实强,我丢了一张手写的财务报表照片进去,结构化输出的准确率比 GPT 高了 7 个百分点。
价格也是真的香。我算了一下我们项目日均调用量(大概 15M input tokens + 3M output tokens),Gemini 一天 ¥150 左右,GPT 要 ¥300+。一个月差出来 ¥4500,对小团队来说不是小数目。
GPT-5.5 的护城河
代码生成还是 OpenAI 更强。我跑了一组 LeetCode medium 难度的题,GPT-5.5 一次通过率 87%,Gemini 是 82%。差距不算大,但在复杂业务逻辑的场景下体感更明显——GPT 生成的代码边界处理更完善,异常分支考虑得更全。
另外 function calling 的稳定性 GPT 确实好。Gemini 偶尔会在 JSON schema 复杂的时候输出格式错误:
{"error": "Could not parse tool call", "raw": "```json\n{\"name\": ..."}
这个问题大概 50 次调用里出现 2-3 次,不算高频但挺烦人的。
调用链路对比
graph TD
A[开发者代码] --> B{选择接入方式}
B -->|官方直连| C[Google AI Studio]
B -->|官方直连| D[OpenAI API]
B -->|聚合平台| E[OpenRouter / [ofox.ai](https://ofox.ai?utm_source=juejin&utm_medium=techlin_jj_article&utm_campaign=seo) / Together AI]
C --> F[Gemini 3.1 Pro]
D --> G[GPT-5.5]
E --> F
E --> G
E --> H[其他模型]
官方直连的问题是:Google 那边需要绑 GCP 账号,信用卡验证流程折腾半天;OpenAI 的 API 在亚太区延迟波动比较大,P95 能到 890ms。
聚合平台这块我对比了 OpenRouter 和 ofox.ai,OpenRouter 收 5.5% 手续费,ofox.ai 是 0% 加价直接对齐官方价格,走的是 Google Cloud / AWS Bedrock 官方通道,实测延迟反而比直连 OpenAI 官方还稳一点(P95 在 620ms)。
不同需求怎么选
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 长文档解析/RAG | Gemini 3.1 Pro | 2M 上下文 + 多模态强 |
| 代码生成/重构 | GPT-5.5 | 可运行率高 5%,边界处理好 |
| 图片/视频理解 | Gemini 3.1 Pro | 原生多模态,不是后加的 |
| Function Calling 密集型 | GPT-5.5 | JSON 输出稳定性更好 |
| 预算敏感 | Gemini 3.1 Pro | 价格便宜一半,没什么好说的 |
| 需要切换多个模型 | 聚合平台 | 改 model 参数就行,不用管各家 SDK |
实际调用代码
两家都兼容 OpenAI SDK 格式,切换成本很低:
from openai import OpenAI
# GPT-5.5
client_gpt = OpenAI(
api_key="sk-xxx",
base_url="https://api.openai.com/v1"
)
# Gemini 3.1 Pro(通过聚合平台调用,省得折腾 GCP)
client_gemini = OpenAI(
api_key="your-key",
base_url="https://api.ofox.ai/v1"
)
resp = client_gemini.chat.completions.create(
model="gemini-3.1-pro",
messages=[{"role": "user", "content": "解析这份文档的表格结构"}],
max_tokens=4096
)
踩坑记录
-
Gemini 的
safety_settings默认比较严格,正常的技术文档偶尔会触发HARM_CATEGORY_DANGEROUS_CONTENT,需要手动把阈值调到BLOCK_NONE -
GPT-5.5 的 streaming 模式下,如果
max_tokens设太大(比如 16384),首 token 时间会明显变长,我测下来大概多 200-300ms -
两家的 token 计算方式不一样。同一段中文文本,Gemini 算出来的 token 数比 GPT 少约 15%,所以实际成本差距比表面价格差距还大一点
小结
我目前的做法是主力用 Gemini 3.1 Pro 处理文档和多模态任务,代码生成和 function calling 密集的场景还是走 GPT-5.5。两个模型互补着用,月成本控制在 ¥6000 左右(之前全用 GPT 要 ¥9000+)。
Gemini 的 function calling 稳定性问题后续会不会修我也不好说——Google 的迭代速度最近确实快,说不定下个月就没这个毛病了。反正目前这套方案跑了三周,没出过生产事故,先这么用着。