深度解析Gemini 2.5模型的技术升级与开发新特性

1 阅读5分钟

Gemini 2.5:更智能的模型与更强大的开发工具

Gemini 2.5 Pro持续受到开发者青睐,成为编码任务的最佳模型,而2.5 Flash也通过新的更新变得更好。同时,正在为模型引入新的能力,包括“深度思考”——这是一个为2.5 Pro设计的实验性增强推理模式。

2.5 Pro性能表现

新版的2.5 Pro旨在帮助开发者构建更丰富、更具交互性的Web应用程序。除了在学术基准测试上的强劲表现外,新版2.5 Pro现已在流行的编码排行榜WebDev Arena上领先,ELO得分为1415。同时,它在LMArena的所有排行榜上也处于领先地位,该榜单评估模型在不同维度上的人类偏好。凭借其100万个令牌的上下文窗口,2.5 Pro拥有最先进的长上下文和视频理解性能。

自从集成了LearnLM后,2.5 Pro也成为领先的学习模型。在评估其教学法和有效性的头对头比较中,教育工作者和专家在多样化的场景中更倾向于选择Gemini 2.5 Pro。并且,它在构建学习型AI系统所依据的五个学习科学原则的每一项上都超越了顶级模型。

深度思考

通过探索其思考能力的前沿,开始测试一种名为“深度思考”的增强推理模式。该模式采用了新的研究技术,使模型能够在回应前考虑多种假设。

2.5 Pro深度思考在2025年美国数学奥林匹克竞赛(当前最难的数学基准之一)上取得了令人印象深刻的分数。它也在竞争级编码的困难基准LiveCodeBench上领先,并在测试多模态推理的MMMU上取得了84.0%的分数。

由于正在用2.5 Pro深度思考定义前沿,因此需要额外时间进行更多的前沿安全评估,并进一步听取安全专家的意见。为此,计划先通过API向可信的测试者提供该功能以收集反馈,然后再广泛发布。

更出色的2.5 Flash

2.5 Flash是为速度和低成本设计的高效主力模型,现在它在许多方面都变得更好了。在推理、多模态、代码和长上下文等关键基准上都有所改进,同时效率更高,在评估中使用的令牌数量减少了20-30%。

新的2.5 Flash现已面向开发者开放预览,企业版也开放预览,并在应用程序中向所有人开放。在六月初,它将正式发布供生产使用。

新的Gemini 2.5能力

原生音频输出与Live API改进

目前,Live API正在引入音视频输入和原生音频输出对话的预览版本,以便可以直接构建更具自然表现力的对话体验。

它还允许用户引导其语调、口音和说话风格。例如,可以告诉模型在讲故事时使用戏剧性的声音。并且它支持工具使用,能够代表用户进行搜索。

可以尝试一系列早期功能,包括:

  • 情感对话:模型检测用户语音中的情绪并做出适当回应。
  • 主动音频:模型将忽略背景对话并知道何时回应。
  • Live API中的思考:模型利用其思考能力来支持更复杂的任务。

同时,正在为2.5 Pro和2.5 Flash发布新的文本转语音预览。这些功能首次支持多发言人,通过原生音频输出实现双语音频合成。

与原生音频对话一样,文本转语音富有表现力,能够捕捉非常细微的差别,例如耳语。它支持超过24种语言,并可在语言间无缝切换。

此文本转语音功能将于今日晚些时候在API中提供。

计算机使用

正在将计算机使用能力引入API和企业平台。一些机构正在探索其潜力,并期待在今年夏天更广泛地向开发者推出此功能以供实验。

更好的安全性

还显著增强了对安全威胁(如间接提示注入)的防护。这是指恶意指令被嵌入到AI模型检索的数据中。新的安全方法有助于在工具使用期间显著提高防护率,使其成为迄今为止最安全的模型系列。

增强的开发者体验

思维摘要

现在,2.5 Pro和Flash将在API和企业平台中包含思维摘要。思维摘要将模型的原始思维组织成清晰的格式,包含标题、关键细节以及关于模型操作(例如使用工具时)的信息。

希望通过以更结构化、更精简的格式呈现模型的思考过程,使开发者和用户能更轻松地理解和调试与模型的交互。

思维预算

推出了带有思维预算的2.5 Flash,通过平衡延迟和质量让开发者更好地控制成本。并且正在将这一能力扩展到2.5 Pro。这允许控制在模型回应前用于思考的令牌数量,甚至可以关闭其思考能力。

带有预算控制的2.5 Pro将在未来几周内与正式版模型一起,正式发布供稳定的生产使用。

MCP支持

在API中为本机SDK添加了对模型上下文协议定义的支持,以便更轻松地与开源工具集成。同时,正在探索部署MCP服务器和其他托管工具的方法,使开发者更容易构建代理应用程序。

始终致力于创新新方法来改进模型和开发者体验,包括提高其效率和性能,并持续响应开发者反馈。