Gemini 3.1 Pro 发布 3 天,我用同一个 API 跑了 3 家大模型横评,结果有点意外

3 阅读4分钟

2 月 19 号 Google 发了 Gemini 3.1 Pro,ARC-AGI-2 直接干到 77.1%,推理能力比上代翻了一倍。当时我正在写一个数据清洗脚本,看到消息直接放下手里的活开测 🤣

作为一个每天跟 AI API 打交道的独立开发者,新模型出来不测一下,等于白关注了。

测试方案

准备了一道「有坑」的编程题:一段有 3 个隐蔽 bug 的 Python 代码,让模型来找 bug 并修复。

为什么选 debug?因为这是最考验推理能力的场景之一,而且贴近实际工作。

选手:

  • Google Gemini 3.1 Pro(2月19号刚发布)
  • Anthropic Claude Opus 4.6(当前最强编码模型之一)
  • OpenAI GPT-5(老牌选手)

测试代码(故意埋了 3 个 bug):

def merge_sorted_lists(list1, list2):
    """合并两个有序列表,返回新的有序列表"""
    result = []
    i, j = 0, 0
    
    while i < len(list1) and j < len(list2):
        if list1[i] <= list2[j]:
            result.append(list1[i])
            i += 1
        else:
            result.append(list2[j])
            i += 1  # Bug 1: 应该是 j += 1
    
    # Bug 2: 只处理了 list1 的剩余
    while i < len(list1):
        result.append(list1[i])
        i += 1
    
    return result  # Bug 3: 缺少 list2 剩余元素的处理


def process_data(data_list):
    """处理数据:去重、排序、合并"""
    seen = set()
    unique = []
    for item in data_list:
        if item not in seen:
            unique.append(item)
            seen.add(item)
    
    mid = len(unique) // 2
    left = sorted(unique[:mid])
    right = sorted(unique[mid:])
    
    return merge_sorted_lists(left, right)

# 测试
print(process_data([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]))

Prompt 统一用:「找出这段代码中的所有 bug,解释原因,并给出修复后的完整代码。」

实测结果

Gemini 3.1 Pro

⏱ 耗时 3.2 秒

找到了全部 3 个 bug ✅

分析逻辑非常清晰,每个 bug 给了行号 + 原因 + 影响范围。还额外指出了一个潜在优化点(item not in seen 在 set 中虽然是 O(1),但如果不需要保持插入顺序,可以直接用 set 去重)。

修复代码一次通过,无需追问。

加分项: 主动附了单元测试用例。

Claude Opus 4.6

⏱ 耗时 2.8 秒

同样找到全部 3 个 bug ✅

Claude 的风格更像在做 code review,会解释为什么这个 bug 难被发现——「因为当 list2 先耗尽时,list1 的 while 循环能正常收尾,测试用例恰好没覆盖 list2 更长的情况」。

修复代码一次通过。

加分项: 额外提供了 diff 格式的修改对比,实际工作中直接能用。

GPT-5

⏱ 耗时 4.1 秒

找到 2 个 bug ⚠️

Bug 1 和 Bug 3 找到了,但 Bug 2(缺少 list2 剩余处理)没有单独指出来——它用 result.extend(list1[i:]) 替换了 list1 的 while 循环,但忘了加 list2 那段 😂

需要追问一次才给出完整修复。

加分项: 注释最详细,适合学习场景。

结果汇总

模型发现 bug响应时间一次修对
Gemini 3.1 Pro3/3 ✅3.2s
Claude Opus 4.63/3 ✅2.8s
GPT-52/3 ⚠️4.1s

说实话 Gemini 3.1 Pro 超出预期。以前 Gemini 在代码能力上一直被压着,这次明显上了一个台阶。Google 说 ARC-AGI-2 翻倍不是吹的。

Claude 依然稳如老狗 🐕,code review 级别的分析在实际工作中最实用。

GPT-5 这次有点拉——可能是我运气不好,也可能正好踩到某个弱点。

来算笔账 💰

能力差不多的情况下,价格就很关键了:

模型输入价格输出价格本次测试花费
Gemini 3.1 Pro~$1.25/M~$10/M~$0.003
Claude Opus 4.6~$15/M~$75/M~$0.025
GPT-5~$10/M~$30/M~$0.010

价格为近似参考,各平台实际定价可能有差异

Gemini 3.1 Pro 单价基本是 Claude 的十分之一。当然 Opus 贵有贵的道理——那个 code review 级别的分析确实值这个价。

我现在的策略:日常简单任务用 Gemini,复杂重要场景用 Claude。

我的多模型工作流

说到多模型混用,不得不提一个踩过的坑:以前每换一个模型就要改一堆代码——API 地址不同、认证方式不同、返回格式不同,光维护这些差异就够喝一壶。

后来发现有些 API 聚合平台能一个 endpoint 调几十个模型。我现在用的是 ofox.ai,国内直连不用梯子,延迟也还行。最爽的是改一行 model 参数就能切模型:

import openai

client = openai.OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="your-key"
)

models = ["gemini-3.1-pro", "claude-opus-4-6", "gpt-5"]

for model in models:
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}]
    )
    print(f"\n{'='*50}")
    print(f"Model: {model}")
    print(resp.choices[0].message.content[:200])

这次横评就是这么跑的,改个 model name 就行,3 分钟出结果。

总结

Gemini 3.1 Pro 是 Google 近两年最值得一试的模型,推理能力确实肉眼可见地提升了。如果你的场景是日常编码辅助、数据分析、文档处理,强烈推荐试试,性价比极高。

但如果是需要极致代码审查能力的场景,Claude Opus 依然是首选。

2026 年了,别再死守一个模型了,多模型混用才是正确姿势 🚀


我是 ofox,独立开发者,每天跟各种 AI API 打交道。关注我,后续会继续做模型横评和 API 踩坑分享。