Gemini 2.5 Flash混合推理模型技术解析

3 阅读4分钟

通过Gemini API开始使用Gemini 2.5 Flash

今天,我们通过Google AI Studio和Vertex AI中的Gemini API,以预览版形式推出Gemini 2.5 Flash的早期版本。该新版本在2.0 Flash广受欢迎的基础上,实现了推理能力的大幅升级,同时仍优先考虑速度和成本。Gemini 2.5 Flash是首个完全混合推理模型,允许开发者开启或关闭思考功能。该模型还允许开发者设置“思考预算”,以在质量、成本和延迟之间找到合适的权衡。即使关闭思考,开发者也能保持2.0 Flash的快速,并提升性能。

Gemini 2.5模型是思考模型,能够在响应前通过思考进行推理。模型不会立即生成输出,而是可以执行“思考”过程,以更好地理解提示、分解复杂任务并规划响应。在需要多步推理的复杂任务上(如解决数学问题或分析研究问题),思考过程使模型能够得出更准确、更全面的答案。事实上,Gemini 2.5 Flash在LMArena的硬提示测试中表现强劲,仅次于2.5 Pro。

2.5 Flash 以极低的成本和模型规模,达到了与其他领先模型相当的性能指标。

最具成本效益的思考模型

2.5 Flash 继续以最佳的性价比引领模型发展。

Gemini 2.5 Flash 为谷歌在成本与质量权衡的帕累托前沿上增添了又一模型。*

精细化管理思考的控制

不同用例在质量、成本和延迟方面有不同的权衡。为给开发者提供灵活性,支持设置“思考预算”,从而精细控制模型在思考期间可生成的最大Token数量。更高的预算允许模型进行更深入的推理以提升质量。但重要的是,该预算设定了2.5 Flash可思考的上限,如果提示不需要,模型不会使用全部预算。

随着思考预算的增加,推理质量得到提升。

模型经过训练,能够知道针对给定提示应思考多长时间,因此会根据感知到的任务复杂性自动决定思考量。如果想保持最低成本和延迟,同时性能仍优于2.0 Flash,可将思考预算设为0。也可以使用API中的参数,或Google AI Studio及Vertex AI中的滑块,为思考阶段设置特定的Token预算。对于2.5 Flash,预算范围可从0到24576个Token。

以下提示展示了2.5 Flash在默认模式下可能使用的推理量。

低推理需求提示:

  • 示例1:“谢谢”用西班牙语怎么说
  • 示例2:加拿大有多少个省?

中等推理需求提示:

  • 示例1:掷两个骰子,点数之和为7的概率是多少?
  • 示例2:我的健身房在周一、三、五的上午9点到下午3点,以及周二和周六的下午2点到晚上8点开放篮球自由活动时间。如果我每周工作5天,每天上午9点到下午6点,并且希望在工作日打5小时篮球,请为我制定一个能完成所有计划的日程表。

高推理需求提示:

  • 示例1:一根长度L=3m的悬臂梁,具有矩形横截面(宽b=0.1m,高h=0.2m),由钢制成(E=200 GPa)。它承受沿全长的均布载荷w=5 kN/m,并在自由端承受点载荷P=10 kN。计算最大弯曲应力(σ_max)。
  • 示例2:编写一个函数 evaluate_cells(cells: Dict[str, str]) -> Dict[str, float],用于计算电子表格单元格的值。 每个单元格包含: 一个数字(例如“3”) 或一个类似“=A1 + B1 * 2”的公式,使用 +, -, *, / 和其他单元格。 要求: 解析单元格之间的依赖关系。 处理运算符优先级(先乘除后加减)。 检测循环并引发 ValueError(“Cycle detected at <cell>”)。 不允许使用 eval()。仅使用内置库。

立即开始使用Gemini 2.5 Flash

具备思考能力的Gemini 2.5 Flash现已在Google AI Studio和Vertex AI中通过Gemini API提供预览版,并且在Gemini应用程序的专用下拉菜单中也可用。鼓励尝试 thinking_budget 参数,探索可控的推理如何帮助解决更复杂的问题。

from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="掷两个骰子,点数之和为7的概率是多少?",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)

print(response.text)

详细的API参考和思考指南,请查阅开发者文档,或从Gemini Cookbook中的代码示例开始。

我们将继续改进Gemini 2.5 Flash,后续将推出更多功能,然后将其全面开放以供正式生产环境使用。

*模型定价信息来源于Artificial Analysis及公司文档。FINISHED