Gemini 2.5 Flash混合推理模型技术解析本文介绍了Gemini 2.5 Flash这一混合推理模型，允许开发

通过Gemini API开始使用Gemini 2.5 Flash

今天，我们通过Google AI Studio和Vertex AI中的Gemini API，以预览版形式推出Gemini 2.5 Flash的早期版本。该新版本在2.0 Flash广受欢迎的基础上，实现了推理能力的大幅升级，同时仍优先考虑速度和成本。Gemini 2.5 Flash是首个完全混合推理模型，允许开发者开启或关闭思考功能。该模型还允许开发者设置“思考预算”，以在质量、成本和延迟之间找到合适的权衡。即使关闭思考，开发者也能保持2.0 Flash的快速，并提升性能。

Gemini 2.5模型是思考模型，能够在响应前通过思考进行推理。模型不会立即生成输出，而是可以执行“思考”过程，以更好地理解提示、分解复杂任务并规划响应。在需要多步推理的复杂任务上（如解决数学问题或分析研究问题），思考过程使模型能够得出更准确、更全面的答案。事实上，Gemini 2.5 Flash在LMArena的硬提示测试中表现强劲，仅次于2.5 Pro。

2.5 Flash 以极低的成本和模型规模，达到了与其他领先模型相当的性能指标。

最具成本效益的思考模型

2.5 Flash 继续以最佳的性价比引领模型发展。

Gemini 2.5 Flash 为谷歌在成本与质量权衡的帕累托前沿上增添了又一模型。*

精细化管理思考的控制

不同用例在质量、成本和延迟方面有不同的权衡。为给开发者提供灵活性，支持设置“思考预算”，从而精细控制模型在思考期间可生成的最大Token数量。更高的预算允许模型进行更深入的推理以提升质量。但重要的是，该预算设定了2.5 Flash可思考的上限，如果提示不需要，模型不会使用全部预算。

随着思考预算的增加，推理质量得到提升。

模型经过训练，能够知道针对给定提示应思考多长时间，因此会根据感知到的任务复杂性自动决定思考量。如果想保持最低成本和延迟，同时性能仍优于2.0 Flash，可将思考预算设为0。也可以使用API中的参数，或Google AI Studio及Vertex AI中的滑块，为思考阶段设置特定的Token预算。对于2.5 Flash，预算范围可从0到24576个Token。

以下提示展示了2.5 Flash在默认模式下可能使用的推理量。

低推理需求提示：

示例1：“谢谢”用西班牙语怎么说
示例2：加拿大有多少个省？

中等推理需求提示：

示例1：掷两个骰子，点数之和为7的概率是多少？
示例2：我的健身房在周一、三、五的上午9点到下午3点，以及周二和周六的下午2点到晚上8点开放篮球自由活动时间。如果我每周工作5天，每天上午9点到下午6点，并且希望在工作日打5小时篮球，请为我制定一个能完成所有计划的日程表。

高推理需求提示：

示例1：一根长度L=3m的悬臂梁，具有矩形横截面（宽b=0.1m，高h=0.2m），由钢制成（E=200 GPa）。它承受沿全长的均布载荷w=5 kN/m，并在自由端承受点载荷P=10 kN。计算最大弯曲应力（σ_max）。
示例2：编写一个函数 evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]，用于计算电子表格单元格的值。每个单元格包含：一个数字（例如“3”）或一个类似“=A1 + B1 * 2”的公式，使用 +, -, *, / 和其他单元格。要求：解析单元格之间的依赖关系。处理运算符优先级（先乘除后加减）。检测循环并引发 ValueError(“Cycle detected at <cell>”)。不允许使用 eval()。仅使用内置库。

立即开始使用Gemini 2.5 Flash

具备思考能力的Gemini 2.5 Flash现已在Google AI Studio和Vertex AI中通过Gemini API提供预览版，并且在Gemini应用程序的专用下拉菜单中也可用。鼓励尝试 thinking_budget 参数，探索可控的推理如何帮助解决更复杂的问题。

from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="掷两个骰子，点数之和为7的概率是多少？",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)

print(response.text)

详细的API参考和思考指南，请查阅开发者文档，或从Gemini Cookbook中的代码示例开始。

我们将继续改进Gemini 2.5 Flash，后续将推出更多功能，然后将其全面开放以供正式生产环境使用。

*模型定价信息来源于Artificial Analysis及公司文档。FINISHED