Gemini 2.5原生音频能力详解本文详细介绍了Gemini 2.5在人工智能音频对话与生成方面的新进展，涵盖其实时对

高级音频对话与生成：Gemini 2.5

Gemini天生就是多模态的，能够原生地理解和生成跨文本、图像、音频、视频和代码的内容。在I/O大会上，展示了Gemini 2.5如何在AI驱动的音频对话和生成能力上迈出重要一步。这些模型已被用于为全球用户提供音频功能，覆盖众多产品、原型和语言。例如，NotebookLM的音频概览和Project Astra就是其中的两个应用。以下是对Gemini 2.5原生音频功能的具体介绍。

实时音频对话

人类的对话是丰富且微妙的，意义不仅通过所说的内容传达，还通过说话方式——语调、口音，甚至是非语音的发声，如笑声来体现。认为，对话将是我们与AI交互的关键方式。因此，Gemini在音频中能够原生地进行推理和生成语音，从而实现高效、实时的沟通。

Gemini 2.5 Flash预览版的原生音频对话功能包括：

自然对话： 具有卓越质量的语音交互，更恰当的语音表现力和韵律（节奏模式），并具有极低的延迟，从而实现流畅的对话。
风格控制： 使用自然语言提示，可以在对话中调整其表达方式，引导其采用特定的口音，产生一系列语调和表情，甚至进行耳语。
工具集成： Gemini 2.5可以在对话中使用工具和函数调用。这使其能够整合来自某中心搜索等来源的实时信息，或使用开发者自定义的工具，使对话更加实用。
对话上下文感知（主动音频）： 系统经过训练，能够识别并忽略背景语音、环境对话和其他无关音频，在适当时机做出响应。简而言之，它能理解何时不该说话。
音视频理解： 凭借对音频和视频流的原生支持，Gemini 2.5可以与您就视频流或屏幕共享中看到的内容进行对话。
多语言支持： 可以使用24种以上支持的语言进行对话，甚至可以在同一句话中轻松混合多种语言。
情感对话： Gemini 2.5能够响应用户的语音语调，认识到相同的词语以不同的方式说出来可能会导致截然不同的对话。
高级思维对话： Gemini的推理能力可以增强其对话效果，从而在所有功能上带来更好的整体表现。这带来了更连贯、更智能的交互，尤其是在复杂推理任务中。

可控文本转语音技术

文本转语音技术正在飞速发展，凭借最新的模型，我们正超越自然性，实现对生成音频前所未有的控制。现在，可以生成从短片段到长篇叙述的任何内容，并精确地规定风格、语调、情感表达和表现方式——所有这些都可以通过自然语言提示来控制。

额外的控制功能包括：

动态表现： 这些模型可以为从诗歌、新闻播报到引人入胜的故事讲述等各种内容带来富有表现力的朗读。它们还能根据要求表现出特定的情感和口音。
增强的语速和发音控制： 控制语速，并确保发音更准确，包括针对特定单词。
多说话人对话生成： 该模型可以从文本输入生成双人“NotebookLM风格”的音频概览，通过对话使内容更具吸引力。
多语言支持： 利用Gemini 2.5轻松创建多语言音频内容，提供对超过24种语言的相同支持。

对于可控语音生成（TTS），可以选择Gemini 2.5 Pro预览版以获得在复杂提示上最先进的质量，或选择Gemini 2.5 Flash预览版以获得经济高效的日常应用。这使得开发者能够动态地为公告、故事、播客、视频游戏等创建音频。

安全与责任

在开发这些原生音频功能的每一个阶段，都主动评估了潜在风险，并利用获得的信息来制定缓解策略。通过严格的内部和外部安全评估（包括全面的红队测试）来验证这些措施，以确保负责任的部署。此外，模型的所有音频输出都嵌入了SynthID水印技术，通过使AI生成的音频可识别来确保透明度。

面向开发者的原生音频能力

正在为Gemini 2.5模型引入原生音频输出功能，通过某机构的AI Studio或Vertex AI中的Gemini API，为开发者提供构建更丰富、更具交互性应用程序的新能力。

要开始探索，开发者可以在某机构AI Studio的“流”选项卡中试用Gemini 2.5 Flash预览版的原生音频对话功能。可控语音生成（TTS）功能对Gemini 2.5 Pro和Flash均提供预览，可以在某机构AI Studio的“生成媒体”选项卡中选择语音生成来使用。