AI 语音克隆神器 IndexTTS-2 开源，支持零样本声音克隆

2025-10-11 559 阅读2分钟

IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音（TTS）模型。模型在情感表达和时长控制方面实现了重大突破，是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆，仅需一个音频文件即可精准复制音色、节奏和说话风格，支持多语言。IndexTTS-2 实现了情感音色分离控制，用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能，支持通过情感参考音频、情感描述文本或情感向量来控制情感。

教程链接：go.openbayes.com/XutrT

登录 OpenBayes，在「公共教程」页面，选择一键部署「IndexTTS-2：突破自回归 TTS 时长与情感控制瓶颈」教程。

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。

待系统分配好资源，当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。

模型提供了 4 种情感控制方法，下面逐一进行演示。

Same as the voice reference

首先上传一段参考音频，然后在「Text」中输入文本，最后点击「Synthesize」合成。
具体参数：

do_sample：是否进行采样。
temperature：控制采样时概率分布的平滑程度。
top_p：核采样。
top_k：在每一步生成时，只考虑概率最高的 K 个 token。
num_beams：束搜索宽度。
repetition_penalty：重复惩罚，降低模型重复生成相同 token 的概率。
length_penalty：长度惩罚，鼓励或抑制模型生成更长或更短的序列。主要在使用 num_beams > 1 时有效。
max_mel_tokens：生成 Token 最大数量。

Use emotion reference audio

分别在「Voice Reference」和「Upload emotion reference audio」中上传参考音频和情感参考音频，在「Text」中输入文本，点击「Synthesize」合成。

Use emotion vectors

该方法支持调整情感参数和情感控制权重。
情感控制参数：

Happy、Disgusted、Angry、Melancholic、Sad、Surprised、Afraid、Calm：分别对应 8 个基本情感维度。每个滑块的值（通常在 0.0 到 1.0 之间）表示希望在最终语音中体现该情感的强度。

Use text description to control emotion

该方法支持手动输入情感描述，但目前还处于实验阶段。