谷歌 Gemini 3.1 Pro 实测

0 阅读6分钟

谷歌在 Gemini 3 系列之后,终于祭出了重磅的迭代版本,正式发布了 Gemini 3.1 Pro。面对过去一年里各种顶尖模型的轮番轰炸,谷歌此次带来的显然是针对复杂任务处理的“杀手锏”。官方宣称,Gemini 3.1 Pro 是一套功能高度强大的原生多模态推理模型。我们对其预览版本 gemini-3.1-pro-preview 进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要特别说明的是,本次评测我们主要聚焦于极为严苛的中文文本与逻辑内核测试。Gemini 3.1 Pro 作为原生多模态大模型,其真正的“杀手锏”在于能够同时吞吐超大规模的视频、音频、图像以及代码库。这种跨模态的宏大叙事能力,在当前的中文评测集下可能只展露了冰山一角。不过,这种“降维打击”式的评测,恰恰能探出其底层逻辑和语言能力的真实底色。

gemini-3.1-pro-preview 版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):74.8%
  • 平均耗时(每次调用):53s
  • 平均token(每次调用消耗的token):3157
  • 平均花费(每千次调用的人民币花费):250.5

1、新旧对决:速度与深度的双重进化

对比上一代版本(gemini-3-pro-preview),Gemini 3.1 Pro 在核心能力上实现了全面跃升,而最令人惊喜的是其在推理效率上的突破,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

整体性能跃升,杀入前二:新版本准确率从 72.5% 提升至 74.8%,提升了 2.3 个百分点,在整体榜单中的排名从第 6 位一跃来到第 2 位。
专业领域显著增强:从细分领域来看,新版本在多个核心维度上展现了更强的能力。

  • 语言与指令遵从:提升幅度最大(+4.9%),达到 72.4%,这意味着模型在处理复杂且繁琐的中文指令时更加游刃有余。

  • 推理与数学计算:提升了 3.3%,达到 85.1%,稳居该维度的顶尖水平。

  • 教育及其他垂直领域:“教育”从 64.8% 大幅提升至 68.6%(+3.8%);“金融”与“法律与行政公务”也分别有小幅上涨,而“医疗与心理健康”则保持在 88.7% 的高水准。

响应时间逆势缩短:令人瞩目的是,在总分大幅提升的前提下,gemini-3.1-pro-preview 的平均耗时却从 64s 降低到了 53s。在平均 token 消耗微增(3119 增至 3157)的情况下,处理速度却变得更快,这意味着模型底层架构的推理效率得到了极大的优化。

2、诸神黄昏:横向对比其他模型

在当前主流大模型竞争格局中,gemini-3.1-pro-preview 作为前排头部力量表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 高成本区间的统治力:在 200-300 元/千次 的档位中,gemini-3.1-pro-preview 展现了极强的统治力。相较于同处该档位的 claude-sonnet-4.5-thinking(68.8%,305.1),gemini-3.1-pro-preview 的准确率大幅领先了 6.0 个百分点,且单次调用花费更低。对于预算充裕、追求极限推理能力和超长上下文的场景,它提供了目前该档位下首屈一指的模型智力。
  • 与亲民档位头部的博弈:虽然 Doubao-Seed-2.0-pro(76.5%,22.5)在 20 元左右的档位拔得头筹,但考虑到 Gemini 3.1 Pro 背靠的百万上下文和复杂的跨模态处理架构,其在需要大规模数据整合的高端商用场景下,依然是不可或缺的重器。

新旧模型对比

  • 新一代旗舰的全面包揽:榜单头部已经彻底被各家的新一代模型占据。前三甲被 Doubao-Seed-2.0-pro(76.5%)、gemini-3.1-pro-preview(74.8%)以及 qwen3.5-plus(74.6%)包揽,这印证了近期各家在底层算法和推理逻辑上的大幅迭代是极具成效的。
  • Gemini 自身迭代路径清晰:对比其自身的上一代 gemini-3-pro-preview(72.5%),3.1 版本的进步十分显著,彻底夯实了谷歌在第一梯队的核心话语权。

开源VS闭源对比

  • 闭源巨头稳坐头把交椅:从 Top 2 来看,Doubao-Seed-2.0-pro 与 gemini-3.1-pro-preview 依然代表着闭源大厂在算力和数据堆叠上难以逾越的性能壁垒。
  • 开源阵营的极限施压:开源模型在此次榜单中表现极其惊艳。阿里巴巴的 qwen3.5-plus 以 74.6% 的高分紧紧咬住 Gemini 3.1 Pro,位列第 3。此外,GLM-4.7(71.5%)、Kimi-K2.5-Thinking(71.3%)以及 DeepSeek-V3.2-Think(70.9%)均在榜单前列占据了一席之地,开源力量对闭源顶级模型的追赶趋势已经肉眼可见。

3、官方评测

根据 Google DeepMind 官方发布的最新的评测结果( deepmind.google/models/mode… ),Gemini 3.1 Pro 针对真实世界中极具挑战性的复杂任务进行了全方位的强化。官方选取了当前业内最顶级的数个模型(包括 Opus 4.6、Sonnet 4.6、GPT-5.2 及 GPT-5.3-Codex)进行了正面交锋,结果显示 Gemini 3.1 Pro 在多个核心维度上确立了全新的行业标杆。

突破性的逻辑、科学与学术推理能力

在极度考验模型认知与逻辑的推理类基准中,Gemini 3.1 Pro 展现了断层式的领先优势:

  • 抽象推理与解谜: 在衡量抽象推理难题的 ARC-AGI-2 评测中,Gemini 3.1 Pro 取得了惊人的 77.1%,相比上一代 Gemini 3 Pro(31.1%)实现了翻倍式跨越,并将 Opus 4.6(68.8%)和 GPT-5.2(52.9%)远远甩在身后。
  • 顶尖科学知识: 在 GPQA Diamond 科学知识基准上,它以 94.3% 的最高分击败了 GPT-5.2(92.4%)及其他所有对手。
  • 人类终极考试: 面对学术推理的极限挑战 Humanity's Last Exam,Gemini 3.1 Pro 在“无工具”状态下拿下 44.4% 的最高分;在允许使用搜索与代码的设定下,得分进一步提升至 51.4%,表现远超前代。

代码与端到端 Agent(智能体)表现

代码与工作流执行是 Gemini 3.1 Pro 此次进化的重头戏:

  • 竞技与科研编程: 在 LiveCodeBench Pro 竞技编程评测中,Gemini 3.1 Pro 斩获了高达 2887 的 Elo 评分(远超前代 2439 和 GPT-5.2 的 2393)。同时,在 SciCode(科学研究编程,59%)和 Terminal-Bench 2.0(智能体终端编程,68.5%)中均稳居榜首。
  • 多步智能体工作流: 面对复杂的现实任务流,Gemini 3.1 Pro 表现极其出色。它在 MCP Atlas(使用 MCP 的多步工作流,69.2%)、BrowseComp(智能体搜索,85.9%)以及 APEX-Agents(长周期专业任务,33.5%)这几项极度吃力的 Agent 测试中,全面碾压了 Opus 4.6 和 GPT-5.2。

长上下文与多语言

  • 极限上下文窗口: 在 MRCR v2 (8-needle) 长上下文性能测试中,Gemini 3.1 Pro 不仅在 128k 窗口下取得了 84.9% 的优异成绩(与 Sonnet 4.6 并列第一),更关键的是,它原生支持高达 1M(100万)token 的超大上下文检索(得分 26.3%)。而同台竞技的 Opus 4.6、Sonnet 4.6 与 GPT-5.2 在此量级下均直接显示为“Not supported(不支持)”,展现了谷歌在长文本底层架构上的独家壁垒。
  • 多语言与多模态: 在 MMMLU(多语言问答)测试中,模型以 92.6% 的高分登顶;在 MMMU Pro(多模态理解与推理)中,也以 80.5% 的高分稳居第一梯队。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear