谷歌已开始通过Gemini API推出Google Gemini 2.5 Flash的早期预览版,用户可通过Google AI Studio和Vertex AI访问。此版本在2.0 Flash的基础上进行了重大升级,显著提升了推理能力,同时仍注重速度和成本效益。
Gemini 2.5 Flash是谷歌首款完全混合推理模型,允许开发者开启或关闭思考功能。它引入了“思考预算”功能,使开发者能够通过控制推理过程中生成的最大token数量,来平衡质量、成本和延迟。该模型可以根据任务复杂度自动调整推理时长,确保高效性能,避免不必要的预算消耗。
即使关闭思考功能,开发者仍可利用该模型在速度上相较于2.0 Flash的改进。Gemini 2.5 Flash的预览版,包括其推理能力,现已通过Gemini API提供,并在Gemini应用的专用下拉菜单中可用。