教程上新 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音,重新定义TTS技术边界

90 阅读2分钟

微软最新开源的 VibeVoice-1.5B 模型,在 TTS 技术领域掀起了轩然大波,这款拥有 15 亿参数的模型,能够一次性生成长达 90 分钟的高自然度语音,并支持模拟最多 4 位不同说话者的对话,其官方盲测 MOS(平均意见分数)高达 4.5,接近真人语音质量。

VibeVoice-1.5B 的核心创新在于其独特的双 Tokenizer 架构和扩散解码技术。 它基于 Qwen2.5 语言模型,通过声学 Tokenizer(采用 σ-VAE 结构,实现 3,200 倍音频压缩)和语义 Tokenizer(专注于保留文本情绪与停顿)分工协作,以仅 7.5 Hz 的超低帧率处理音频序列。在解码端,一个 1.23 亿参数的扩散解码器配合 DPM-Solver 算法,负责重构高保真音频细节。

VibeVoice-1.5B 主要面向科研与开发者社区,为播客制作、对话式 AI 以及语音内容生成等领域提供了新工具。不过需要注意的是,它目前仅支持中英文,且无法处理语音重叠或生成背景音效。微软明确强调了其研究用途,并内置了可听闻的免责声明和不可感知的水印技术,以防止技术滥用。

「微软 VibeVoice-1.5B 重新定义 TTS 技术边界」现已上线至 OpenBayes 公共教程板块, 点击下方链接即可一键部署。

教程地址: go.openbayes.com/sQp1n

Demo 运行

01 Demo 运行阶段

1.登录 OpenBayes.com,在「公共教程」页面,选择「微软 VibeVoice-1.5B 重新定义 TTS 技术边界」教程。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):

go.openbayes.com/9S6Dr

4.等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示
进入模型页面后,在「Number of Speakers」中选择说话人数,「Speaker 1-4」设置说话人,「Conversation Script」中输入对话文本,最后点击「Generate Podcast」生成。

小贝以四人对话为例,生成了一段语音:

*prompt:

Speaker 1: How about trying that new café this weekend? I heard their pour-over coffee is good.

Speaker 2:Sure! But I have to go to yoga on Saturday afternoon, so I’m free on Sunday morning.

Speaker 3: Sunday morning works for me too. I just want to talk to you guys about the team building next week.

Speaker 4:Then I have no problem! Let’s meet at the café entrance at 10 a.m. on Sunday?

Speaker 1:Great, I’ll reserve a window seat in advance.