想象一下,当你对着AI助手说话时,它能像人类一样毫无延迟地回应你,这样的体验是不是很棒?今天为大家介绍的 Ultravox 就能做到这一点。
为什么现有的语音AI总是很慢?
传统语音AI的流程:语音识别→文本处理→语言模型→语音合成
-
多个环节导致延迟累积
-
用户体验不够自然流畅
Ultravox:重新定义AI语音对话体验
- 突破性技术:直接将音频转换为语言模型的高维空间,从而无需单独的语音识别阶段
- 告别传统的分段式处理,实现超低延迟,首Token仅需150毫秒
技术亮点解析
- 借鉴AudioLM、SeamlessM4T、Gazelle、SpeechGPT等前沿研究
- 该项目提供了一个Gradio演示,可以本地运行并支持自然语音对话
- 提供了在线推理服务器和托管API的访问方式
- 提供了训练自己版本Ultravox的方法,包括环境搭建、数据准备、训练配置等细节
github开源地址 github.com/fixie-ai/ul…