Gemini 3.1 Pro 实测:推理能力翻倍,代码能力直逼 Claude Opus 4.6
Google 在 2 月 19 日发布了 Gemini 3.1 Pro Preview,ARC-AGI-2 推理跑分从 31.1% 飙到 77.1%,SWE-Bench 编码 80.6% 逼近 Claude Opus 4.6 的 80.9%。这不是小版本迭代,是代际跃升。我第一时间跑了几个实际场景,分享下真实体感。
跑分速览
先看硬数据,和上一代、竞品的对比:
| 指标 | Gemini 3.0 Pro | Gemini 3.1 Pro | Claude Opus 4.6 | GPT-5.2 |
|---|---|---|---|---|
| ARC-AGI-2(推理) | 31.1% | 77.1% | 72.8% | 68.3% |
| SWE-Bench(编码) | 76.8% | 80.6% | 80.9% | 79.1% |
| BrowseComp(搜索) | 59.2% | 85.9% | — | — |
| MMLU-Pro(知识) | 79.1% | 84.3% | 82.7% | 83.5% |
几个关键点:
- 推理能力 2.5 倍提升,这在大模型迭代里非常罕见
- 编码能力首次和 Claude Opus 4.6 打平(差 0.3%,统计误差范围内)
- BrowseComp 搜索理解从 59.2% 到 85.9%,说明长文档/网页理解能力大幅增强
实测一:复杂代码重构
给了它一段 200 行的 Express 中间件,要求重构成 Koa + TypeScript,同时加上错误处理和请求验证。
3.0 Pro 的表现是"能跑但粗糙"——类型定义不完整,错误处理只包了最外层。3.1 Pro 直接给出了完整的类型定义、分层的错误处理(业务错误/系统错误/验证错误分开捕获),还主动加了 Zod schema 验证。
最让我意外的是它会主动问:"原代码里的 req.user 是从 JWT 中间件注入的吗?如果是,我建议把 User 类型也一起定义。"——这种上下文推理能力,3.0 Pro 做不到。
实测二:多步推理
经典测试:给一个包含 5 层嵌套条件的业务逻辑,让它找 bug。
def calculate_discount(user, cart, promo_code):
base_discount = 0
if user.is_vip:
if cart.total > 500:
base_discount = 0.15
elif cart.total > 200:
base_discount = 0.10
if promo_code and promo_code.is_valid:
if promo_code.type == "percentage":
# Bug: VIP + promo 折扣叠加可能超过 50%
base_discount += promo_code.value / 100
elif promo_code.type == "fixed":
base_discount = max(base_discount, promo_code.value / cart.total)
else:
if promo_code and promo_code.is_valid:
base_discount = promo_code.value / 100 if promo_code.type == "percentage" else promo_code.value / cart.total
# Bug: 非 VIP 用户没有 cart.total 下限检查,cart.total=0 会除零
return min(base_discount, 0.5) # 看似有上限保护,但 fixed 类型已经算过了
3.1 Pro 一次性找出了三个问题:折扣叠加溢出、除零风险、以及 min(base_discount, 0.5) 对 fixed 类型的逻辑矛盾。3.0 Pro 只找到了除零那个。
实测三:API 调用体验
用 OpenAI 兼容格式调用,切换成本为零:
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://xingjiabiapi.org/v1" # 兼容 OpenAI 格式,直接用
)
response = client.chat.completions.create(
model="gemini-3.1-pro-preview",
messages=[
{"role": "system", "content": "你是一个资深 Python 工程师"},
{"role": "user", "content": "帮我写一个支持重试和超时的 HTTP 客户端封装"}
],
temperature=0.7,
max_tokens=4096
)
print(response.choices[0].message.content)
响应速度比 3.0 Pro 快了大约 20%(体感,没严格测),输出质量明显提升——给的代码直接能跑,不用再手动补 import 或修类型。
思考级别:low / medium / high
3.1 Pro 支持多个思考级别变体:
gemini-3.1-pro-preview-low:快速响应,适合简单问答和翻译gemini-3.1-pro-preview-medium:平衡模式,日常开发够用gemini-3.1-pro-preview-high:深度推理,复杂 debug 和架构设计用这个
实际使用建议:日常开发用 medium,遇到复杂逻辑再切 high。low 适合批量处理简单任务,省钱。
价格对比
| 模型 | 输入价格(/M tokens) | 输出价格(/M tokens) |
|---|---|---|
| Gemini 3.1 Pro | $0.25 | $1.50 |
| Gemini 3.0 Pro | $0.125 | $0.75 |
| Claude Opus 4.6 | $15.00 | $75.00 |
| GPT-5.2 | $2.50 | $10.00 |
3.1 Pro 的价格是 3.0 Pro 的 2 倍,但推理能力提升了 2.5 倍,性价比反而更高。和 Claude Opus 4.6 比,能力接近但价格只有 1/60,这个差距太大了。
适合什么场景
根据这几天的使用,我的建议:
- 日常编码助手:完全够用,替代 Claude Sonnet 绑绑有余,价格还更低
- 复杂推理/debug:high 模式下表现接近 Opus 4.6,但成本低两个数量级
- 长文档理解:BrowseComp 85.9% 说明它处理长上下文的能力很强,适合代码审查、文档分析
- 不适合:创意写作还是 Claude 更好,Gemini 的文风偏"工程师味"
总结
Gemini 3.1 Pro 是目前性价比最高的推理模型,没有之一。推理能力翻倍、编码逼近 Opus、价格只有竞品零头。如果你的场景是代码开发、逻辑推理、数据分析,强烈建议试试。
唯一的遗憾是目前还在 Preview 阶段,偶尔会有不稳定的情况。建议生产环境做好 fallback,开发测试可以放心用。
笔者日常用 xingjiabiapi.org 调各家模型 API,Gemini 3.1 Pro 已上线,有问题可以加微信 malimalihongbebe 交流,也欢迎评论区聊聊使用体验。