教程上新 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音，重新定义TTS技术边界

微软最新开源的 VibeVoice-1.5B 模型，在 TTS 技术领域掀起了轩然大波，这款拥有 15 亿参数的模型，能够一次性生成长达 90 分钟的高自然度语音，并支持模拟最多 4 位不同说话者的对话，其官方盲测 MOS（平均意见分数）高达 4.5，接近真人语音质量。

VibeVoice-1.5B 的核心创新在于其独特的双 Tokenizer 架构和扩散解码技术。 它基于 Qwen2.5 语言模型，通过声学 Tokenizer（采用 σ-VAE 结构，实现 3,200 倍音频压缩）和语义 Tokenizer（专注于保留文本情绪与停顿）分工协作，以仅 7.5 Hz 的超低帧率处理音频序列。在解码端，一个 1.23 亿参数的扩散解码器配合 DPM-Solver 算法，负责重构高保真音频细节。

VibeVoice-1.5B 主要面向科研与开发者社区，为播客制作、对话式 AI 以及语音内容生成等领域提供了新工具。不过需要注意的是，它目前仅支持中英文，且无法处理语音重叠或生成背景音效。微软明确强调了其研究用途，并内置了可听闻的免责声明和不可感知的水印技术，以防止技术滥用。

「微软 VibeVoice-1.5B 重新定义 TTS 技术边界」现已上线至 OpenBayes 公共教程板块， 点击下方链接即可一键部署。

教程地址： go.openbayes.com/sQp1n

Demo 运行

01 Demo 运行阶段

1.登录 OpenBayes.com，在「公共教程」页面，选择「微软 VibeVoice-1.5B 重新定义 TTS 技术边界」教程。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像，按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

小贝总专属邀请链接（直接复制到浏览器打开）：

go.openbayes.com/9S6Dr

4.等待分配资源，首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。请注意，用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示
进入模型页面后，在「Number of Speakers」中选择说话人数，「Speaker 1-4」设置说话人，「Conversation Script」中输入对话文本，最后点击「Generate Podcast」生成。

小贝以四人对话为例，生成了一段语音：

*prompt：

Speaker 1: How about trying that new café this weekend? I heard their pour-over coffee is good.

Speaker 2：Sure! But I have to go to yoga on Saturday afternoon, so I’m free on Sunday morning.

Speaker 3: Sunday morning works for me too. I just want to talk to you guys about the team building next week.

Speaker 4：Then I have no problem! Let’s meet at the café entrance at 10 a.m. on Sunday?

Speaker 1：Great, I’ll reserve a window seat in advance.