深度解析Gemini 2.5模型的技术升级与开发新特性本文详细介绍了Gemini 2.5 Pro和Flash模型的最新更

Gemini 2.5：更智能的模型与更强大的开发工具

Gemini 2.5 Pro持续受到开发者青睐，成为编码任务的最佳模型，而2.5 Flash也通过新的更新变得更好。同时，正在为模型引入新的能力，包括“深度思考”——这是一个为2.5 Pro设计的实验性增强推理模式。

2.5 Pro性能表现

新版的2.5 Pro旨在帮助开发者构建更丰富、更具交互性的Web应用程序。除了在学术基准测试上的强劲表现外，新版2.5 Pro现已在流行的编码排行榜WebDev Arena上领先，ELO得分为1415。同时，它在LMArena的所有排行榜上也处于领先地位，该榜单评估模型在不同维度上的人类偏好。凭借其100万个令牌的上下文窗口，2.5 Pro拥有最先进的长上下文和视频理解性能。

自从集成了LearnLM后，2.5 Pro也成为领先的学习模型。在评估其教学法和有效性的头对头比较中，教育工作者和专家在多样化的场景中更倾向于选择Gemini 2.5 Pro。并且，它在构建学习型AI系统所依据的五个学习科学原则的每一项上都超越了顶级模型。

深度思考

通过探索其思考能力的前沿，开始测试一种名为“深度思考”的增强推理模式。该模式采用了新的研究技术，使模型能够在回应前考虑多种假设。

2.5 Pro深度思考在2025年美国数学奥林匹克竞赛（当前最难的数学基准之一）上取得了令人印象深刻的分数。它也在竞争级编码的困难基准LiveCodeBench上领先，并在测试多模态推理的MMMU上取得了84.0%的分数。

由于正在用2.5 Pro深度思考定义前沿，因此需要额外时间进行更多的前沿安全评估，并进一步听取安全专家的意见。为此，计划先通过API向可信的测试者提供该功能以收集反馈，然后再广泛发布。

更出色的2.5 Flash

2.5 Flash是为速度和低成本设计的高效主力模型，现在它在许多方面都变得更好了。在推理、多模态、代码和长上下文等关键基准上都有所改进，同时效率更高，在评估中使用的令牌数量减少了20-30%。

新的2.5 Flash现已面向开发者开放预览，企业版也开放预览，并在应用程序中向所有人开放。在六月初，它将正式发布供生产使用。

新的Gemini 2.5能力

原生音频输出与Live API改进

目前，Live API正在引入音视频输入和原生音频输出对话的预览版本，以便可以直接构建更具自然表现力的对话体验。

它还允许用户引导其语调、口音和说话风格。例如，可以告诉模型在讲故事时使用戏剧性的声音。并且它支持工具使用，能够代表用户进行搜索。

可以尝试一系列早期功能，包括：

情感对话：模型检测用户语音中的情绪并做出适当回应。
主动音频：模型将忽略背景对话并知道何时回应。
Live API中的思考：模型利用其思考能力来支持更复杂的任务。

同时，正在为2.5 Pro和2.5 Flash发布新的文本转语音预览。这些功能首次支持多发言人，通过原生音频输出实现双语音频合成。

与原生音频对话一样，文本转语音富有表现力，能够捕捉非常细微的差别，例如耳语。它支持超过24种语言，并可在语言间无缝切换。

此文本转语音功能将于今日晚些时候在API中提供。

计算机使用

正在将计算机使用能力引入API和企业平台。一些机构正在探索其潜力，并期待在今年夏天更广泛地向开发者推出此功能以供实验。

更好的安全性

还显著增强了对安全威胁（如间接提示注入）的防护。这是指恶意指令被嵌入到AI模型检索的数据中。新的安全方法有助于在工具使用期间显著提高防护率，使其成为迄今为止最安全的模型系列。

增强的开发者体验

思维摘要

现在，2.5 Pro和Flash将在API和企业平台中包含思维摘要。思维摘要将模型的原始思维组织成清晰的格式，包含标题、关键细节以及关于模型操作（例如使用工具时）的信息。

希望通过以更结构化、更精简的格式呈现模型的思考过程，使开发者和用户能更轻松地理解和调试与模型的交互。

思维预算

推出了带有思维预算的2.5 Flash，通过平衡延迟和质量让开发者更好地控制成本。并且正在将这一能力扩展到2.5 Pro。这允许控制在模型回应前用于思考的令牌数量，甚至可以关闭其思考能力。

带有预算控制的2.5 Pro将在未来几周内与正式版模型一起，正式发布供稳定的生产使用。

MCP支持

在API中为本机SDK添加了对模型上下文协议定义的支持，以便更轻松地与开源工具集成。同时，正在探索部署MCP服务器和其他托管工具的方法，使开发者更容易构建代理应用程序。

始终致力于创新新方法来改进模型和开发者体验，包括提高其效率和性能，并持续响应开发者反馈。