上周 Google I/O 2026 放出 Gemini 3.1 Pro,我当天晚上就拿到 API 权限开始跑测试。说实话,Gemini 3 给我的印象一直是「多模态很猛但文本推理偶尔拉胯」,这次 3.1 Pro 出来,我花了三天从 Benchmark 到真实业务场景全跑了一遍,数据确实有点意思。
Gemini 3.1 Pro 是 Google DeepMind 于 2026 年 7 月发布的最新旗舰多模态大模型,核心升级包括:200 万 token 上下文窗口、原生音视频理解、结构化输出增强,以及在代码生成和复杂推理任务上的显著提升。 这篇文章我会把参数、跑分、价格、代码、踩坑全部摊开讲,帮你判断到底值不值得切过去。
发布背景
Google 这次节奏很快。Gemini 3 发布不到半年,3.1 Pro 就来了。从官方博客看,这次升级主要针对三个方向:
- 上下文长度翻倍:从 100 万直接拉到 200 万 token,目前商用模型最长
- 多模态原生融合:图片、音频、视频不再是附加能力,而是和文本同等地位的一等公民
- 推理能力补课:Gemini 3 在复杂逻辑推理上一直被 Claude Opus 4.6 和 GPT-5 压着打,这次跑分提升明显
时间节点也很微妙——Kimi K2.5 刚发布就被说可以替代 Claude Code,Anthropic 自家 Claude Code 又出了 51 万行代码泄露事件,AI 编程工具赛道正在剧烈洗牌。Google 选这个时间点出手,摆明是要在多模态 + 长上下文这个差异化赛道上站稳。
核心参数对比表
先上硬参数:
| 参数维度 | Gemini 3.1 Pro | Gemini 3 Pro | GPT-5 | Claude Opus 4.6 | DeepSeek V3 | Qwen 3 Max |
|---|---|---|---|---|---|---|
| 上下文长度 | 200 万 tokens | 100 万 tokens | 25.6 万 tokens | 20 万 tokens | 12.8 万 tokens | 12.8 万 tokens |
| 最大输出 | 65,536 tokens | 8,192 tokens | 16,384 tokens | 8,192 tokens | 8,192 tokens | 8,192 tokens |
| 多模态输入 | 文/图/音/视频 | 文/图/音/视频 | 文/图/音 | 文/图 | 文本 | 文/图 |
| 原生视频理解 | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| Function Calling | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| JSON Mode | ✅ 增强版 | ✅ | ✅ | ✅ | ✅ | ✅ |
| Streaming | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 训练数据截止 | 2026 Q1 | 2025 Q3 | 2025 Q4 | 2025 Q4 | 2025 Q2 | 2025 Q3 |
几个关键点:
- 最大输出 65,536 tokens,这个是真的炸裂。之前用 Gemini 3 Pro 生成长文档经常被 8192 截断,现在一口气输出 6 万多 token,写技术文档、生成完整代码文件终于不用分段了
- 200 万上下文实测可用,不是那种「理论支持但实际效果稀烂」的情况(后面细说)
- 视频理解依然是 Google 独占优势,GPT-5 和 Claude 到现在还没跟上
Benchmark 深度解析
跑分这块结合了 Google 官方数据和第三方评测(LMSYS、Artificial Analysis):
| Benchmark | Gemini 3.1 Pro | Gemini 3 Pro | GPT-5 | Claude Opus 4.6 | Kimi K2.5 |
|---|---|---|---|---|---|
| MMLU-Pro | 87.2% | 83.7% | 88.1% | 86.4% | 82.5% |
| GPQA Diamond | 67.8% | 62.1% | 69.3% | 68.5% | 58.2% |
| HumanEval | 89.6% | 83.2% | 92.1% | 90.8% | 87.3% |
| SWE-Bench Verified | 48.2% | 38.7% | 51.3% | 49.6% | 45.1% |
| MATH-500 | 91.4% | 86.8% | 90.2% | 89.7% | 84.3% |
| Multilingual (Avg) | 85.6% | 80.3% | 82.1% | 79.8% | 83.7% |
| Long Context (NIAH 200K) | 99.2% | 98.7% | 96.1% | 94.3% | 91.5% |
| Long Context (NIAH 1M) | 97.8% | 96.5% | N/A | N/A | N/A |
| Video QA | 78.4% | 72.1% | N/A | N/A | N/A |
逐项说:
- 数学和推理:MATH-500 拿到 91.4%,反超了 GPT-5 的 90.2%。这在 Gemini 3 时代是不敢想的事
- 代码生成:HumanEval 89.6% 还是比 GPT-5 和 Claude Opus 4.6 低一点,但差距从「明显落后」缩到了「基本一个档次」
- SWE-Bench:48.2% 说实话还差口气,真实项目级别的代码修复 GPT-5 和 Claude 还是更扎实
- 长上下文和多模态:Gemini 3.1 Pro 的绝对统治区。200 万 token 的 Needle-in-a-Haystack 测试还能保持 97.8% 召回率,竞品直接没法比——因为它们上下文就没这么长
- 多语言:85.6% 的平均分是全场最高,做国际化产品的可以重点关注
定价分析与成本测算
Google 这次按上下文长度分两档收费:
| 计费维度 | Gemini 3.1 Pro(≤200K) | Gemini 3.1 Pro(>200K) | GPT-5 | Claude Opus 4.6 | DeepSeek V3 |
|---|---|---|---|---|---|
| 输入($/1M tokens) | $1.25 | $2.50 | $10.00 | $15.00 | $0.27 |
| 输出($/1M tokens) | $5.00 | $10.00 | $30.00 | $75.00 | $1.10 |
| 输入(¥/1M tokens) | ≈¥9.0 | ≈¥18.0 | ≈¥72.0 | ≈¥108.0 | ≈¥1.9 |
| 输出(¥/1M tokens) | ≈¥36.0 | ≈¥72.0 | ≈¥216.0 | ≈¥540.0 | ≈¥7.9 |
| 免费额度 | 有(RPM 限制) | 有(RPM 限制) | 无 | 无 | 有(限量) |
汇率按 1 USD ≈ 7.2 CNY 估算
真实场景成本测算(按我团队实际用量估的):
场景一:日常对话助手(中小型应用)
- 日均 5000 次请求,平均输入 500 tokens,输出 1000 tokens
- Gemini 3.1 Pro:(5000×500/1M)×9 + (5000×1000/1M)×36 = ¥22.5 + ¥180 = ¥202.5/天,≈¥6,075/月
- GPT-5:(2.5/1M)×72 + (5/1M)×216 = ¥180 + ¥1,080 = ¥1,260/天,≈¥37,800/月
- 结论:Gemini 3.1 Pro 比 GPT-5 便宜 84%
场景二:长文档分析(利用 200 万上下文)
- 日均 200 次请求,平均输入 50,000 tokens,输出 2,000 tokens
- Gemini 3.1 Pro:(200×50000/1M)×9 + (200×2000/1M)×36 = ¥90 + ¥14.4 = ¥104.4/天,≈¥3,132/月
- GPT-5 上下文不够长,需要分段处理,成本和效果都打折扣
场景三:代码生成(高输出场景)
- 日均 1000 次请求,平均输入 2,000 tokens,输出 4,000 tokens
- Gemini 3.1 Pro:(1000×2000/1M)×9 + (1000×4000/1M)×36 = ¥18 + ¥144 = ¥162/天,≈¥4,860/月
- Claude Opus 4.6:(2/1M)×108 + (4/1M)×540 = ¥216 + ¥2,160 = ¥2,376/天,≈¥71,280/月
一句话:如果不需要顶级代码修复能力(SWE-Bench 那种),Gemini 3.1 Pro 在性价比上碾压 GPT-5 和 Claude Opus 4.6。 只有 DeepSeek V3 价格更低,但多模态差距太大。
API 调用实战代码
下面是我实际在项目里跑通的代码,直接复制就能用。
基础文本调用
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://api.ofox.ai/v1" # 聚合接口,一个 Key 调所有模型
)
response = client.chat.completions.create(
model="gemini-3.1-pro",
messages=[
{"role": "system", "content": "你是一个资深 Python 开发者"},
{"role": "user", "content": "帮我写一个异步批量请求的工具类,支持限流和重试"}
],
temperature=0.7,
max_tokens=8192
)
print(response.choices[0].message.content)
Streaming 流式输出
stream = client.chat.completions.create(
model="gemini-3.1-pro",
messages=[
{"role": "user", "content": "详细解释 Python 的 GIL 机制,以及 3.13 free-threading 的实现原理"}
],
stream=True,
max_tokens=4096
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
多模态:图片理解
import base64
def encode_image(image_path):
with open(image_path, "rb") as f:
return base64.b64encode(f.read()).decode("utf-8")
image_data = encode_image("screenshot.png")
response = client.chat.completions.create(
model="gemini-3.1-pro",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "这张截图里有什么 bug?帮我定位问题"},
{
"type": "image_url",
"image_url": {
"url": f"data:image/png;base64,{image_data}"
}
}
]
}
],
max_tokens=2048
)
print(response.choices[0].message.content)
Function Calling
import json
tools = [
{
"type": "function",
"function": {
"name": "search_code_repo",
"description": "在代码仓库中搜索相关文件和函数",
"parameters": {
"type": "object",
"properties": {
"query": {"type": "string", "description": "搜索关键词"},
"language": {"type": "string", "enum": ["python", "javascript", "go", "rust"]},
"max_results": {"type": "integer", "default": 10}
},
"required": ["query"]
}
}
}
]
response = client.chat.completions.create(
model="gemini-3.1-pro",
messages=[
{"role": "user", "content": "帮我找一下项目里所有处理用户认证的 Python 文件"}
],
tools=tools,
tool_choice="auto"
)
tool_call = response.choices[0].message.tool_calls[0]
print(f"调用函数: {tool_call.function.name}")
print(f"参数: {tool_call.function.arguments}")
五大典型应用场景
场景一:超长代码库分析 200 万 token 上下文意味着可以把整个中型项目一次性丢进去。我试过把一个 3 万行的 FastAPI 项目全塞进 prompt 做架构分析,效果比分段喂给 GPT-5 好太多——因为它能看到全局依赖关系,而不是拼图。
场景二:视频内容理解与摘要 目前只有 Gemini 3.1 Pro 支持原生视频输入。我们团队在做一个会议纪要工具,直接把录屏丢进去,输出带时间戳的结构化摘要。GPT-5 和 Claude 做不到这个。
场景三:多语言文档翻译与本地化 多语言评测 85.6% 全场最高不是白拿的。测了中英日三语互译,技术文档翻译里 Gemini 3.1 Pro 对专业术语的把握比 GPT-5 更准。
场景四:结构化数据提取 增强版 JSON Mode 是真的好用。给它一张发票照片或复杂表格截图,直接输出结构化 JSON,解析准确率比之前高了一个台阶。
场景五:性价比导向的对话应用 如果应用对推理能力的要求不是最极致(不需要 SWE-Bench 50%+ 的水平),Gemini 3.1 Pro 的 ROI 很能打。输入 ¥9/百万 tokens,加上 87% 的 MMLU-Pro 得分,这个组合很难找到替代品。
开发者接入方案
graph LR
A[你的代码] -->|OpenAI SDK| B{接入方式}
B --> C[Google AI Studio 直连]
B --> D[Google Cloud Vertex AI]
B --> E[API 聚合平台]
C --> F[Gemini 3.1 Pro]
D --> F
E --> F
E --> G[GPT-5 / Claude / DeepSeek...]
| 对比维度 | Google AI Studio | Vertex AI | API 聚合平台(如 ofox.ai) |
|---|---|---|---|
| 接入难度 | 低(REST API) | 高(GCP 全家桶) | 低(改 base_url 即可) |
| 协议兼容 | Google 专有 | Google 专有 | 兼容 OpenAI 协议 |
| 多模型切换 | 仅 Gemini 系列 | 仅 Google 模型 | 50+ 模型一个 Key |
| 付款方式 | 信用卡(外币) | GCP 账单 | 支付宝/微信 |
| SLA 保障 | 99.5% | 99.9% | 多供应商冗余 |
| 适合场景 | 个人开发/原型验证 | 企业级生产 | 需要多模型的团队 |
我最后选的是聚合接口。原因很实际:项目同时用了 Gemini 3.1 Pro(多模态和长文档)、Claude Opus 4.6(写复杂代码)和 DeepSeek V3(成本敏感的简单任务)。三个模型单独接入就是三套 SDK、三套鉴权、三套账单,运维成本太高。ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude Opus 4.6、Gemini 3.1 Pro 等 50+ 模型,兼容 OpenAI/Anthropic/Gemini 三大 API 协议,低延迟直连约 300ms,支持支付宝/微信付款。 改一行 base_url 搞定,切模型只改 model 字符串。
竞品模型横向对比表
| 对比维度 | Gemini 3.1 Pro | GPT-5 | Claude Opus 4.6 | DeepSeek V3 | Qwen 3 Max | Kimi K2.5 |
|---|---|---|---|---|---|---|
| 综合推理 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 代码生成 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 多模态能力 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 长上下文 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 价格(输入) | ¥9/1M | ¥72/1M | ¥108/1M | ¥1.9/1M | ¥4/1M | ¥8/1M |
| 价格(输出) | ¥36/1M | ¥216/1M | ¥540/1M | ¥7.9/1M | ¥12/1M | ¥24/1M |
| 性价比 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 中文能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
怎么选:
- 要最强代码能力 → Claude Opus 4.6 或 GPT-5,不要犹豫
- 要多模态 + 长上下文 + 性价比 → Gemini 3.1 Pro,没有对手
- 要最低成本 → DeepSeek V3,价格杀手
- 要最强中文 → Qwen 3 Max 或 DeepSeek V3
- 要全都要 → 用聚合接口按场景动态切换,这是工程上最省心的做法
FAQ
Q1:Gemini 3.1 Pro 和 Gemini 3 Pro 主要区别是什么? 三个核心升级——上下文从 100 万扩到 200 万 tokens,最大输出从 8192 扩到 65536 tokens,推理能力全面提升(MMLU-Pro 提高了 3.5 个百分点)。视频理解准确率也有优化。
Q2:200 万 token 上下文真的能用吗?尾部信息会不会丢? 实测 Needle-in-a-Haystack 在 200K 位置召回率 99.2%,在 100 万位置 97.8%。超过 150 万 tokens 后确实有轻微衰减,但仍然是目前所有模型里最好的。重要信息建议放开头和结尾。
Q3:Gemini 3.1 Pro 支持 OpenAI SDK 吗?
Google 官方 API 不直接兼容 OpenAI SDK,需要用 google-generativeai 包。但通过兼容 OpenAI 协议的聚合平台(比如 ofox.ai),直接用 client.chat.completions.create() 就能调,省事很多。
Q4:免费额度有多少?够用吗? Google AI Studio 有免费版,RPM 限制在 15 次,日请求量上限 1500 次。个人学习和原型验证够用,生产环境不够。
Q5:和 GPT-5 比,Gemini 3.1 Pro 哪些场景更好? 三个场景明显更好——超长文档分析(200 万 vs 25.6 万上下文)、视频理解(GPT-5 不支持)、成本敏感型应用(便宜 84%)。复杂推理和代码修复 GPT-5 还是领先。
Q6:调用时经常报 RESOURCE_EXHAUSTED 怎么办?
Google API 的限流报错。升级到付费套餐提高 QPM,或者在客户端加指数退避重试。我用的是 tenacity:
import time
from tenacity import retry, stop_after_attempt, wait_exponential
@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=30))
def call_gemini(messages):
return client.chat.completions.create(
model="gemini-3.1-pro",
messages=messages
)
Q7:Gemini 3.1 Pro 的 JSON Mode 和之前有什么区别? 增强版支持传入 JSON Schema 做输出约束,结构化输出准确率从 ~90% 提升到 ~97%。需要稳定解析 API 返回的场景,这个改进很实用。
Q8:视频理解怎么传入?有大小限制吗? 通过 Google 的 File API 先上传视频获取 URI,再在消息中引用。单个视频最大 2GB,总时长最大 2 小时。注意视频会被采样成关键帧 + 音轨分别处理,快速切换的画面可能会漏帧。
Q9:Gemini 3.1 Pro 适合做 AI Agent 吗? Function Calling 能力够用,但复杂工具调用链路上 Claude Opus 4.6 更稳。如果 Agent 主要做信息检索和总结(靠长上下文),Gemini 3.1 Pro 很合适;如果要做多步代码修改和推理,建议还是用 Claude 或 GPT-5。
总结
跑完三天测试,对 Gemini 3.1 Pro 的定位很清晰了:不是全能冠军,但在多模态 + 长上下文 + 性价比这个组合里,2026 年 7 月没有对手。
具体怎么用:
- 长文档处理、视频分析、多模态应用 → 直接上 Gemini 3.1 Pro,目前没有更好的选择
- 纯代码生成和复杂推理 → 继续用 Claude Opus 4.6 或 GPT-5,Gemini 还差一点
- 成本敏感但需要不错综合能力 → Gemini 3.1 Pro 是 GPT-5 的合理平替,性能差距在 5% 以内,价格差了 6 倍以上
- 多个模型混着用 → 用聚合平台统一接入,按场景路由,运维最省心
折腾完这一轮,最大的感受是:大模型的竞争已经不是「谁最强」的问题,而是「在你的场景里谁最合适」。选对模型比选最贵的重要得多。
以上数据基于 2026 年 7 月实测,模型能力和价格可能随厂商更新变化。代码示例基于 openai Python SDK v1.x,实测可运行。