高级音频对话与生成:Gemini 2.5
Gemini天生就是多模态的,能够原生地理解和生成跨文本、图像、音频、视频和代码的内容。在I/O大会上,展示了Gemini 2.5如何在AI驱动的音频对话和生成能力上迈出重要一步。这些模型已被用于为全球用户提供音频功能,覆盖众多产品、原型和语言。例如,NotebookLM的音频概览和Project Astra就是其中的两个应用。以下是对Gemini 2.5原生音频功能的具体介绍。
实时音频对话
人类的对话是丰富且微妙的,意义不仅通过所说的内容传达,还通过说话方式——语调、口音,甚至是非语音的发声,如笑声来体现。认为,对话将是我们与AI交互的关键方式。因此,Gemini在音频中能够原生地进行推理和生成语音,从而实现高效、实时的沟通。
Gemini 2.5 Flash预览版的原生音频对话功能包括:
- 自然对话: 具有卓越质量的语音交互,更恰当的语音表现力和韵律(节奏模式),并具有极低的延迟,从而实现流畅的对话。
- 风格控制: 使用自然语言提示,可以在对话中调整其表达方式,引导其采用特定的口音,产生一系列语调和表情,甚至进行耳语。
- 工具集成: Gemini 2.5可以在对话中使用工具和函数调用。这使其能够整合来自某中心搜索等来源的实时信息,或使用开发者自定义的工具,使对话更加实用。
- 对话上下文感知(主动音频): 系统经过训练,能够识别并忽略背景语音、环境对话和其他无关音频,在适当时机做出响应。简而言之,它能理解何时不该说话。
- 音视频理解: 凭借对音频和视频流的原生支持,Gemini 2.5可以与您就视频流或屏幕共享中看到的内容进行对话。
- 多语言支持: 可以使用24种以上支持的语言进行对话,甚至可以在同一句话中轻松混合多种语言。
- 情感对话: Gemini 2.5能够响应用户的语音语调,认识到相同的词语以不同的方式说出来可能会导致截然不同的对话。
- 高级思维对话: Gemini的推理能力可以增强其对话效果,从而在所有功能上带来更好的整体表现。这带来了更连贯、更智能的交互,尤其是在复杂推理任务中。
可控文本转语音技术
文本转语音技术正在飞速发展,凭借最新的模型,我们正超越自然性,实现对生成音频前所未有的控制。现在,可以生成从短片段到长篇叙述的任何内容,并精确地规定风格、语调、情感表达和表现方式——所有这些都可以通过自然语言提示来控制。
额外的控制功能包括:
- 动态表现: 这些模型可以为从诗歌、新闻播报到引人入胜的故事讲述等各种内容带来富有表现力的朗读。它们还能根据要求表现出特定的情感和口音。
- 增强的语速和发音控制: 控制语速,并确保发音更准确,包括针对特定单词。
- 多说话人对话生成: 该模型可以从文本输入生成双人“NotebookLM风格”的音频概览,通过对话使内容更具吸引力。
- 多语言支持: 利用Gemini 2.5轻松创建多语言音频内容,提供对超过24种语言的相同支持。
对于可控语音生成(TTS),可以选择Gemini 2.5 Pro预览版以获得在复杂提示上最先进的质量,或选择Gemini 2.5 Flash预览版以获得经济高效的日常应用。这使得开发者能够动态地为公告、故事、播客、视频游戏等创建音频。
安全与责任
在开发这些原生音频功能的每一个阶段,都主动评估了潜在风险,并利用获得的信息来制定缓解策略。通过严格的内部和外部安全评估(包括全面的红队测试)来验证这些措施,以确保负责任的部署。此外,模型的所有音频输出都嵌入了SynthID水印技术,通过使AI生成的音频可识别来确保透明度。
面向开发者的原生音频能力
正在为Gemini 2.5模型引入原生音频输出功能,通过某机构的AI Studio或Vertex AI中的Gemini API,为开发者提供构建更丰富、更具交互性应用程序的新能力。
要开始探索,开发者可以在某机构AI Studio的“流”选项卡中试用Gemini 2.5 Flash预览版的原生音频对话功能。可控语音生成(TTS)功能对Gemini 2.5 Pro和Flash均提供预览,可以在某机构AI Studio的“生成媒体”选项卡中选择语音生成来使用。