Gemini 3.1 Pro 发布:一次真正意义上的推理能力跃迁

0 阅读5分钟

在 Gemini 3 Pro 发布还没过去多久,Google DeepMind 又一次选择了“深夜突袭”的方式,推出了下一代旗舰模型 Gemini 3.1 Pro

和以往例行升级不同,这次更新很快在多个核心基准测试中拉开了明显差距,也让整个 AI 圈重新感受到了一种久违的代际变化。

这次 3.1 Pro 的研发中,延续了 Deep Think 之后对推理能力的持续投入,清华校友姚顺宇也参与了模型相关工作。从目前披露的结果来看,这种投入最直接的体现,就是模型在复杂推理测试上的跃升

在被认为极其严苛的 ARC-AGI-2 测试中,Gemini 3.1 Pro 拿下了 77.1% 的成绩,几乎是上一代 3.0 Pro 的两倍;它在 ARC-AGI-1 这种早期基准上延续了统治力,但重点突出它在难度更高的 ARC-AGI-2 上的翻倍表现。对比之下,无论是强调深度思考的 Claude Opus 4.6,还是经过特调的 GPT-5.2,都被明显甩在了身后。

图片

如果把视角从推理转向更偏工程实际的能力差异,这种代差会变得更加直观。在多项 SVG 与代码生成测试中,3.1 Pro 与 3 Pro 之间已经不再是“细节优化”,而是能力层级的变化。SVG 生成背后考察的是模型对于“代码生成、空间布局、视觉美学”的综合理解能力,而不仅仅是跑分,在编程和推理相关评测里,Gemini 3.1 Pro 在多个榜单中处于领先位置。在 AAII 的综合评测中,它不仅总分超过 Claude Opus 4.6 四分以上,API 调用成本也只有对方的一半左右,这一点对开发者来说尤其现实。图片

Gemini 3.1 Pro 已经在 Gemini 与 NotebookLM 中上线,开发者也可以通过 Google AI Studio、Antigravity 以及 Android Studio 进行体验。某种程度上,这也让硅谷当前的大模型竞争格局变得更加清晰——舞台中央,几乎只剩下 Google DeepMind 与 Anthropic 的正面对抗,而此前长期占据话题中心的 OpenAI,在这一轮主战场上的存在感,正在被逐渐稀释。

作为目前谷歌体系内最强的模型,Gemini 3.1 Pro 在能力结构上也完成了一次系统性跨越。它不仅保留了原生全模态输入的优势,还将上下文窗口扩展到了最高 100 万 Token。在被称为“人类最后考试”的 HLE 测试中,3.1 Pro 在不借助外部工具的情况下取得了 44.4% 的成绩,明显领先 GPT-5.2,也领先于 Opus 4.6。ARC-AGI-2 中的 77.1%,则进一步巩固了它在推理维度的领先地位。

真正让不少研究者感到意外的,是 Gemini 3.1 Pro 在代码与智能体方向的进化幅度。在 LiveCodeBench Pro 中,它的 Elo 积分达到了 2887,呈现出断层领先;在 Terminal-Bench 2.0 中,它也超过了专门面向代码优化的 GPT-5.3-Codex;而在 APEX-Agents 这类强调多轮决策与执行的测试里,3.1 Pro 同样位居前列。这意味着它开始具备更稳定的工程协作能力,而不只是“写得出代码”。

长上下文处理是另一个变化明显的维度。在 MRCR v2 的 128k 测试中,Gemini 3.1 Pro 拿到了 84.9% 的高分;而在 1M Token 级别的测试中,它不仅支持,而且仍然保持了可用的理解能力。相比之下,GPT-5.2 和 Opus 4.6 在百万 token 级别确实不如 Gemini 3.1 Pro 原生支持得好,这是 Gemini 的传统优势。与此同时,3.1 Pro 的幻觉率也相比上一代显著下降,这一点对真实应用的意义,远大于单一榜单名次。

这些能力的提升,并没有停留在跑分层面。在实际展示中,Gemini 3.1 Pro 已经能把逻辑推理转化为相当成熟的应用能力。只需要一段简短的提示词,它就可以直接生成可嵌入网页的 SVG 动画,文件体积极小,却支持无限缩放且保持清晰;它也能整合复杂 API,构建实时数据看板,将航天遥测数据转化为直观的可视化界面,清晰呈现国际空间站的运行状态。

在交互与创意编程方向,3.1 Pro 甚至可以通过纯代码生成复杂的 3D 群体行为模拟,比如椋鸟群舞,并结合手势追踪与生成式音乐,构建完整的沉浸式体验。它还能将文学主题转化为真实可运行的前端页面,为《呼啸山庄》这样的经典作品设计现代风格的个人主页,在视觉和氛围上保持高度一致。这些案例的价值,并不在于“炫”,而在于它们已经接近真实原型工具的工作方式。

从更多开发者的首测反馈来看,无论是城市规划模拟、SVG 动画生成,还是 3D 空间推理,Gemini 3.1 Pro 都展现出了比上一代明显更稳定的表现。这种稳定性,恰恰是模型从“演示级能力”迈向“可落地能力”的关键一步。

发布的预览版,显然只是一个开始。谷歌也明确表示,从去年 11 月以来,大量真实用户反馈持续推动了模型的快速迭代。Gemini 3.1 Pro 的这次深夜发布,本质上是一次对行业节奏的重新校准——在通往更高阶通用智能的深水区,只有在算力、算法与工程能力上形成闭环的玩家,才能真正走到下一阶段。

进化没有终点,但下一幕,已经明显更近了。