Google 发布 Gemini 3.5 Flash:性能力压前沿模型

4 阅读4分钟

\n\nGoogle 在 I/O 大会发布了 Gemini 3.5 Flash 和 Omni 模型。Flash 版性能超越 3.1 Pro,推理速度极快且成本极低,在多项基准测试中比肩甚至超越顶尖前沿模型。

译自:Google's Gemini 3.5 Flash beats the frontier models

作者:Frederic Lardinois

在其 I/O 开发者大会上,Google 于周二发布了两款新的 AI 模型:Gemini 3.5 Flash,这是其 Gemini 系列中的最新模型,以及 Gemini Omni Flash,这是一款全新的多模态模型,正如 Google 所言,它可以“根据任何输入创建任何内容”。

Gemini 3.5 Flash

Gemini 3.5 Flash 是 Gemini 3.5 系列中的第一个模型。Pro 版本仍在开发中,预计将于下个月发布,但即使是 3.5 Flash 在大多数基准测试中也超越了现有的 3.1 Pro 模型。

例如,在 TerminalBench 2.1 中,使用 Gemini CLI 解决编程问题时,3.1 Pro 目前得分为 70.3%,而 3.5 Flash 的得分则达到了 76.2%。

虽然这还比不上 OpenAI 的 GPT 5.5,但对于一个 Flash 模型来说,这已经是非常稳健的表现了。

新的 Flash 模型在其他基准测试中也获得了优于 3.1 Pro 的类似结果,包括 GDPval-AA(1656 Elo 对比 1314)、MCP Atlas(83.6% 对比 78.2%)以及 CharXiv 推理(84.2%)。

Gemini 3.5 Flash 基准测试。图片来源:Google。

但或许更有趣的是,它在相当多的基准测试中具有竞争力,有时甚至超越了 OpenAI 的 GPT-5.5 和 Anthropic 的 Opus 4.7 等旗舰模型。

在工具使用基准测试中尤其如此。正如 Google 首席执行官 Sundar Pichai 在今天发布会前的媒体简报中所指出的,Gemini 3.5 Flash 是“将前沿智能与行动相结合的一系列模型中的首个”。

他指出,Flash 接近于最顶尖的前沿模型,而且速度非常快。Artificial Analysis 将其排在 OpenAI 和 Anthropic 的前沿模型之后,但其每秒生成 Token 的速度明显更快(接近每秒 280 个 Token,而 GPT-5.5 和 Opus 4.7 约为 60 或 70 个)。

“Flash 的惊人之处在于,它以不到一半的价格——在某些情况下几乎只有同类前沿模型三分之一的价格——提供了前沿级别的能力,”Sundar Pichai 指出。

Google 指出,3.5 Flash 在运行长周期代理任务(包括代理编码)方面表现尤为强劲。这也是为什么该模型成为 Gemini Spark 核心的原因,Gemini Spark 是 Google 在 I/O 大会上推出的全新个人 AI 代理(目前仅向受信任的测试人员开放)。

鉴于 Flash 模型的能力,Pro 模型可能至少会与来自 OpenAI 和 Anthropic 的同类模型旗鼓相当,并可能在至少某些基准测试中超越它们。

Gemini 3.5 Flash 可用性

Gemini 3.5 Flash 现在可通过 Google AI Studio 和 Android Studio 中的 Gemini API、Gemini Enterprise Agent Platform(又名 Vertex AI)、Gemini Enterprise 以及 Google Antigravity 使用。

对于消费者,它也可以在 Gemini 应用和 Google 搜索的 AI 模式中使用。

Gemini Omni Flash, Google I/O, 2026年5月19日

图片来源:The New Stack

Gemini Omni

Gemini Omni 是一款略有不同的模型。在某种程度上,Gemini 模型一直被设计为多模态,但 Omni 将这一特性推向了更深层次。在当前版本中,它有点像 Veo(Google 的视频生成模型),但随着时间的推移,它也将支持图像和音频。

因此,尽管 Google 表示 Omni 可以“根据任何输入创建任何内容”,但目前它仅从视频开始。在过去的一年左右时间里,视频领域取得了长足的进步,Omni 将用户现在对图像模型的许多期待能力带到了视频领域。

与 Gemini 3.5 一样,Omni 目前也仅发布了 Flash 模型,它允许用户更改视频中的特定内容。例如,可以通过添加新角色和对象,或者改变环境、角度和风格,来完全重塑镜头。Google 表示它可以做到这一点,且“绝不会丢失原始场景的连贯性”。

正如 Google 所强调的(其他前沿实验室往往也对其视频模型持相同观点),Omni 的世界模型对重力、动能和流体动力学具有“直观”的理解,这应当能产生逼真的场景。

因为它具有多模态属性(或很快就会具备),Omni 可以接受图像、文本、视频和音频(或这些的任何组合)作为输入来构建最终场景。

使用 Gemini Omni 创建。图片来源:Google。

为您(及周围人)的安全而设计的数字分身

生成式视频容易被用于深度伪造(deepfakes)和虚假信息活动。Google 表示,它“致力于负责任地开发 AI,并拥有明确的政策来保护用户免受伤害,并监管我们 AI 工具的使用”。在实践中,这意味着你目前可以使用自己的声音和自己的形象化身来创建视频。

“除了分身功能,在编辑视频以改变音频和演讲方面,我们仍在努力进行测试,以更好地了解如何负责任地将这种能力带给用户,”Google 表示。

所有使用 Gemini Omni 创建的视频都将包含 Google 的 SynthID 水印。全 工智能