150毫秒!Ultravox颠覆传统语音AI,让对话快如闪电

104 阅读1分钟

想象一下,当你对着AI助手说话时,它能像人类一样毫无延迟地回应你,这样的体验是不是很棒?今天为大家介绍的 Ultravox 就能做到这一点。


为什么现有的语音AI总是很慢?

传统语音AI的流程:语音识别→文本处理→语言模型→语音合成

  • 多个环节导致延迟累积

  • 用户体验不够自然流畅


Ultravox:重新定义AI语音对话体验

  • 突破性技术:直接将音频转换为语言模型的高维空间,从而无需单独的语音识别阶段
  • 告别传统的分段式处理,实现超低延迟,首Token仅需150毫秒


技术亮点解析

  • 借鉴AudioLM、SeamlessM4T、Gazelle、SpeechGPT等前沿研究
  • 该项目提供了一个Gradio演示,可以本地运行并支持自然语音对话
  • 提供了在线推理服务器和托管API的访问方式
  • 提供了训练自己版本Ultravox的方法,包括环境搭建、数据准备、训练配置等细节


github开源地址 github.com/fixie-ai/ul…