Gemini 3.1 Pro 实测：推理能力翻倍，代码能力直逼 Claude Opus 4.6Google 在 2 月

Gemini 3.1 Pro 实测：推理能力翻倍，代码能力直逼 Claude Opus 4.6

Google 在 2 月 19 日发布了 Gemini 3.1 Pro Preview，ARC-AGI-2 推理跑分从 31.1% 飙到 77.1%，SWE-Bench 编码 80.6% 逼近 Claude Opus 4.6 的 80.9%。这不是小版本迭代，是代际跃升。我第一时间跑了几个实际场景，分享下真实体感。

跑分速览

先看硬数据，和上一代、竞品的对比：

指标	Gemini 3.0 Pro	Gemini 3.1 Pro	Claude Opus 4.6	GPT-5.2
ARC-AGI-2（推理）	31.1%	77.1%	72.8%	68.3%
SWE-Bench（编码）	76.8%	80.6%	80.9%	79.1%
BrowseComp（搜索）	59.2%	85.9%	—	—
MMLU-Pro（知识）	79.1%	84.3%	82.7%	83.5%

几个关键点：

推理能力 2.5 倍提升，这在大模型迭代里非常罕见
编码能力首次和 Claude Opus 4.6 打平（差 0.3%，统计误差范围内）
BrowseComp 搜索理解从 59.2% 到 85.9%，说明长文档/网页理解能力大幅增强

实测一：复杂代码重构

给了它一段 200 行的 Express 中间件，要求重构成 Koa + TypeScript，同时加上错误处理和请求验证。

3.0 Pro 的表现是"能跑但粗糙"——类型定义不完整，错误处理只包了最外层。3.1 Pro 直接给出了完整的类型定义、分层的错误处理（业务错误/系统错误/验证错误分开捕获），还主动加了 Zod schema 验证。

最让我意外的是它会主动问："原代码里的 req.user 是从 JWT 中间件注入的吗？如果是，我建议把 User 类型也一起定义。"——这种上下文推理能力，3.0 Pro 做不到。

实测二：多步推理

经典测试：给一个包含 5 层嵌套条件的业务逻辑，让它找 bug。

def calculate_discount(user, cart, promo_code):
    base_discount = 0
    if user.is_vip:
        if cart.total > 500:
            base_discount = 0.15
        elif cart.total > 200:
            base_discount = 0.10
        if promo_code and promo_code.is_valid:
            if promo_code.type == "percentage":
                # Bug: VIP + promo 折扣叠加可能超过 50%
                base_discount += promo_code.value / 100
            elif promo_code.type == "fixed":
                base_discount = max(base_discount, promo_code.value / cart.total)
    else:
        if promo_code and promo_code.is_valid:
            base_discount = promo_code.value / 100 if promo_code.type == "percentage" else promo_code.value / cart.total
            # Bug: 非 VIP 用户没有 cart.total 下限检查，cart.total=0 会除零
    return min(base_discount, 0.5)  # 看似有上限保护，但 fixed 类型已经算过了

3.1 Pro 一次性找出了三个问题：折扣叠加溢出、除零风险、以及 min(base_discount, 0.5) 对 fixed 类型的逻辑矛盾。3.0 Pro 只找到了除零那个。

实测三：API 调用体验

用 OpenAI 兼容格式调用，切换成本为零：

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://xingjiabiapi.org/v1"  # 兼容 OpenAI 格式，直接用
)

response = client.chat.completions.create(
    model="gemini-3.1-pro-preview",
    messages=[
        {"role": "system", "content": "你是一个资深 Python 工程师"},
        {"role": "user", "content": "帮我写一个支持重试和超时的 HTTP 客户端封装"}
    ],
    temperature=0.7,
    max_tokens=4096
)

print(response.choices[0].message.content)

响应速度比 3.0 Pro 快了大约 20%（体感，没严格测），输出质量明显提升——给的代码直接能跑，不用再手动补 import 或修类型。

思考级别：low / medium / high

3.1 Pro 支持多个思考级别变体：

gemini-3.1-pro-preview-low：快速响应，适合简单问答和翻译
gemini-3.1-pro-preview-medium：平衡模式，日常开发够用
gemini-3.1-pro-preview-high：深度推理，复杂 debug 和架构设计用这个

实际使用建议：日常开发用 medium，遇到复杂逻辑再切 high。low 适合批量处理简单任务，省钱。

价格对比

模型	输入价格（/M tokens）	输出价格（/M tokens）
Gemini 3.1 Pro	$0.25	$1.50
Gemini 3.0 Pro	$0.125	$0.75
Claude Opus 4.6	$15.00	$75.00
GPT-5.2	$2.50	$10.00

3.1 Pro 的价格是 3.0 Pro 的 2 倍，但推理能力提升了 2.5 倍，性价比反而更高。和 Claude Opus 4.6 比，能力接近但价格只有 1/60，这个差距太大了。

适合什么场景

根据这几天的使用，我的建议：

日常编码助手：完全够用，替代 Claude Sonnet 绑绑有余，价格还更低
复杂推理/debug：high 模式下表现接近 Opus 4.6，但成本低两个数量级
长文档理解：BrowseComp 85.9% 说明它处理长上下文的能力很强，适合代码审查、文档分析
不适合：创意写作还是 Claude 更好，Gemini 的文风偏"工程师味"

总结

Gemini 3.1 Pro 是目前性价比最高的推理模型，没有之一。推理能力翻倍、编码逼近 Opus、价格只有竞品零头。如果你的场景是代码开发、逻辑推理、数据分析，强烈建议试试。

唯一的遗憾是目前还在 Preview 阶段，偶尔会有不稳定的情况。建议生产环境做好 fallback，开发测试可以放心用。

笔者日常用 xingjiabiapi.org 调各家模型 API，Gemini 3.1 Pro 已上线，有问题可以加微信 malimalihongbebe 交流，也欢迎评论区聊聊使用体验。