Gemini 3.1 Pro 实测:推理能力翻倍,代码能力直逼 Claude Opus 4.6

0 阅读1分钟

Gemini 3.1 Pro 实测:推理能力翻倍,代码能力直逼 Claude Opus 4.6

Google 在 2 月 19 日发布了 Gemini 3.1 Pro Preview,ARC-AGI-2 推理跑分从 31.1% 飙到 77.1%,SWE-Bench 编码 80.6% 逼近 Claude Opus 4.6 的 80.9%。这不是小版本迭代,是代际跃升。我第一时间跑了几个实际场景,分享下真实体感。

跑分速览

先看硬数据,和上一代、竞品的对比:

指标Gemini 3.0 ProGemini 3.1 ProClaude Opus 4.6GPT-5.2
ARC-AGI-2(推理)31.1%77.1%72.8%68.3%
SWE-Bench(编码)76.8%80.6%80.9%79.1%
BrowseComp(搜索)59.2%85.9%
MMLU-Pro(知识)79.1%84.3%82.7%83.5%

几个关键点:

  • 推理能力 2.5 倍提升,这在大模型迭代里非常罕见
  • 编码能力首次和 Claude Opus 4.6 打平(差 0.3%,统计误差范围内)
  • BrowseComp 搜索理解从 59.2% 到 85.9%,说明长文档/网页理解能力大幅增强

实测一:复杂代码重构

给了它一段 200 行的 Express 中间件,要求重构成 Koa + TypeScript,同时加上错误处理和请求验证。

3.0 Pro 的表现是"能跑但粗糙"——类型定义不完整,错误处理只包了最外层。3.1 Pro 直接给出了完整的类型定义、分层的错误处理(业务错误/系统错误/验证错误分开捕获),还主动加了 Zod schema 验证。

最让我意外的是它会主动问:"原代码里的 req.user 是从 JWT 中间件注入的吗?如果是,我建议把 User 类型也一起定义。"——这种上下文推理能力,3.0 Pro 做不到。

实测二:多步推理

经典测试:给一个包含 5 层嵌套条件的业务逻辑,让它找 bug。

def calculate_discount(user, cart, promo_code):
    base_discount = 0
    if user.is_vip:
        if cart.total > 500:
            base_discount = 0.15
        elif cart.total > 200:
            base_discount = 0.10
        if promo_code and promo_code.is_valid:
            if promo_code.type == "percentage":
                # Bug: VIP + promo 折扣叠加可能超过 50%
                base_discount += promo_code.value / 100
            elif promo_code.type == "fixed":
                base_discount = max(base_discount, promo_code.value / cart.total)
    else:
        if promo_code and promo_code.is_valid:
            base_discount = promo_code.value / 100 if promo_code.type == "percentage" else promo_code.value / cart.total
        # Bug: 非 VIP 用户没有 cart.total 下限检查,cart.total=0 会除零
    return min(base_discount, 0.5)  # 看似有上限保护,但 fixed 类型已经算过了

3.1 Pro 一次性找出了三个问题:折扣叠加溢出、除零风险、以及 min(base_discount, 0.5) 对 fixed 类型的逻辑矛盾。3.0 Pro 只找到了除零那个。

实测三:API 调用体验

用 OpenAI 兼容格式调用,切换成本为零:

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://xingjiabiapi.org/v1"  # 兼容 OpenAI 格式,直接用
)

response = client.chat.completions.create(
    model="gemini-3.1-pro-preview",
    messages=[
        {"role": "system", "content": "你是一个资深 Python 工程师"},
        {"role": "user", "content": "帮我写一个支持重试和超时的 HTTP 客户端封装"}
    ],
    temperature=0.7,
    max_tokens=4096
)

print(response.choices[0].message.content)

响应速度比 3.0 Pro 快了大约 20%(体感,没严格测),输出质量明显提升——给的代码直接能跑,不用再手动补 import 或修类型。

思考级别:low / medium / high

3.1 Pro 支持多个思考级别变体:

  • gemini-3.1-pro-preview-low:快速响应,适合简单问答和翻译
  • gemini-3.1-pro-preview-medium:平衡模式,日常开发够用
  • gemini-3.1-pro-preview-high:深度推理,复杂 debug 和架构设计用这个

实际使用建议:日常开发用 medium,遇到复杂逻辑再切 high。low 适合批量处理简单任务,省钱。

价格对比

模型输入价格(/M tokens)输出价格(/M tokens)
Gemini 3.1 Pro$0.25$1.50
Gemini 3.0 Pro$0.125$0.75
Claude Opus 4.6$15.00$75.00
GPT-5.2$2.50$10.00

3.1 Pro 的价格是 3.0 Pro 的 2 倍,但推理能力提升了 2.5 倍,性价比反而更高。和 Claude Opus 4.6 比,能力接近但价格只有 1/60,这个差距太大了。

适合什么场景

根据这几天的使用,我的建议:

  • 日常编码助手:完全够用,替代 Claude Sonnet 绑绑有余,价格还更低
  • 复杂推理/debug:high 模式下表现接近 Opus 4.6,但成本低两个数量级
  • 长文档理解:BrowseComp 85.9% 说明它处理长上下文的能力很强,适合代码审查、文档分析
  • 不适合:创意写作还是 Claude 更好,Gemini 的文风偏"工程师味"

总结

Gemini 3.1 Pro 是目前性价比最高的推理模型,没有之一。推理能力翻倍、编码逼近 Opus、价格只有竞品零头。如果你的场景是代码开发、逻辑推理、数据分析,强烈建议试试。

唯一的遗憾是目前还在 Preview 阶段,偶尔会有不稳定的情况。建议生产环境做好 fallback,开发测试可以放心用。


笔者日常用 xingjiabiapi.org 调各家模型 API,Gemini 3.1 Pro 已上线,有问题可以加微信 malimalihongbebe 交流,也欢迎评论区聊聊使用体验。