Gemini 2.5:更智能的模型与更强大的开发工具
Gemini 2.5 Pro持续受到开发者青睐,成为编码任务的最佳模型,而2.5 Flash也通过新的更新变得更好。同时,正在为模型引入新的能力,包括“深度思考”——这是一个为2.5 Pro设计的实验性增强推理模式。
2.5 Pro性能表现
新版的2.5 Pro旨在帮助开发者构建更丰富、更具交互性的Web应用程序。除了在学术基准测试上的强劲表现外,新版2.5 Pro现已在流行的编码排行榜WebDev Arena上领先,ELO得分为1415。同时,它在LMArena的所有排行榜上也处于领先地位,该榜单评估模型在不同维度上的人类偏好。凭借其100万个令牌的上下文窗口,2.5 Pro拥有最先进的长上下文和视频理解性能。
自从集成了LearnLM后,2.5 Pro也成为领先的学习模型。在评估其教学法和有效性的头对头比较中,教育工作者和专家在多样化的场景中更倾向于选择Gemini 2.5 Pro。并且,它在构建学习型AI系统所依据的五个学习科学原则的每一项上都超越了顶级模型。
深度思考
通过探索其思考能力的前沿,开始测试一种名为“深度思考”的增强推理模式。该模式采用了新的研究技术,使模型能够在回应前考虑多种假设。
2.5 Pro深度思考在2025年美国数学奥林匹克竞赛(当前最难的数学基准之一)上取得了令人印象深刻的分数。它也在竞争级编码的困难基准LiveCodeBench上领先,并在测试多模态推理的MMMU上取得了84.0%的分数。
由于正在用2.5 Pro深度思考定义前沿,因此需要额外时间进行更多的前沿安全评估,并进一步听取安全专家的意见。为此,计划先通过API向可信的测试者提供该功能以收集反馈,然后再广泛发布。
更出色的2.5 Flash
2.5 Flash是为速度和低成本设计的高效主力模型,现在它在许多方面都变得更好了。在推理、多模态、代码和长上下文等关键基准上都有所改进,同时效率更高,在评估中使用的令牌数量减少了20-30%。
新的2.5 Flash现已面向开发者开放预览,企业版也开放预览,并在应用程序中向所有人开放。在六月初,它将正式发布供生产使用。
新的Gemini 2.5能力
原生音频输出与Live API改进
目前,Live API正在引入音视频输入和原生音频输出对话的预览版本,以便可以直接构建更具自然表现力的对话体验。
它还允许用户引导其语调、口音和说话风格。例如,可以告诉模型在讲故事时使用戏剧性的声音。并且它支持工具使用,能够代表用户进行搜索。
可以尝试一系列早期功能,包括:
- 情感对话:模型检测用户语音中的情绪并做出适当回应。
- 主动音频:模型将忽略背景对话并知道何时回应。
- Live API中的思考:模型利用其思考能力来支持更复杂的任务。
同时,正在为2.5 Pro和2.5 Flash发布新的文本转语音预览。这些功能首次支持多发言人,通过原生音频输出实现双语音频合成。
与原生音频对话一样,文本转语音富有表现力,能够捕捉非常细微的差别,例如耳语。它支持超过24种语言,并可在语言间无缝切换。
此文本转语音功能将于今日晚些时候在API中提供。
计算机使用
正在将计算机使用能力引入API和企业平台。一些机构正在探索其潜力,并期待在今年夏天更广泛地向开发者推出此功能以供实验。
更好的安全性
还显著增强了对安全威胁(如间接提示注入)的防护。这是指恶意指令被嵌入到AI模型检索的数据中。新的安全方法有助于在工具使用期间显著提高防护率,使其成为迄今为止最安全的模型系列。
增强的开发者体验
思维摘要
现在,2.5 Pro和Flash将在API和企业平台中包含思维摘要。思维摘要将模型的原始思维组织成清晰的格式,包含标题、关键细节以及关于模型操作(例如使用工具时)的信息。
希望通过以更结构化、更精简的格式呈现模型的思考过程,使开发者和用户能更轻松地理解和调试与模型的交互。
思维预算
推出了带有思维预算的2.5 Flash,通过平衡延迟和质量让开发者更好地控制成本。并且正在将这一能力扩展到2.5 Pro。这允许控制在模型回应前用于思考的令牌数量,甚至可以关闭其思考能力。
带有预算控制的2.5 Pro将在未来几周内与正式版模型一起,正式发布供稳定的生产使用。
MCP支持
在API中为本机SDK添加了对模型上下文协议定义的支持,以便更轻松地与开源工具集成。同时,正在探索部署MCP服务器和其他托管工具的方法,使开发者更容易构建代理应用程序。
始终致力于创新新方法来改进模型和开发者体验,包括提高其效率和性能,并持续响应开发者反馈。