ai实时声音对话模型 - 用户071502901368的收藏集 - 掘金

ai实时声音对话模型

用户071502901368

更多收藏集

3篇文章 · 0订阅

Open Avatar Chat：阿里开源实时数字人对话系统，让AI对话实现2.2秒低延迟交互

Open Avatar Chat是阿里开源的模块化数字人对话系统，支持文本/音频/视频多模态交互，采用可替换组件设计，平均响应延迟仅2.2秒，为开发者提供灵活高效的解决方案。

蚝油菜花
10月前
643
1
评论

月之暗面最新开源模型！Kimi-Audio：革新多模态音频处理，统一音频理解、生成与对话！

处理音频数据时，我们是不是经常要切换各种工具？转写用 ASR（语音识别），转音频又得找稳定的 TTS 模型（工具）…… 几个小时前，月之暗面 Moonshot AI 正式开源了 Kimi-Audio

开源星探
10月前
827
2
评论

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音（TTS）模型，支持13种语言，具备零样本和少样本语音合成能力，语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如

蚝油菜花
1年前
603
点赞
评论

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言