AI 语音克隆神器 IndexTTS-2 开源,支持零样本声音克隆

441 阅读2分钟

IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音(TTS)模型。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归 TTS 模型。支持零样本声音克隆,仅需一个音频文件即可精准复制音色、节奏和说话风格,支持多语言。IndexTTS-2 实现了情感音色分离控制,用户可以独立指定音色来源和情绪来源。模型具备多模态情感输入功能,支持通过情感参考音频、情感描述文本或情感向量来控制情感。

教程链接:go.openbayes.com/XutrT

登录 OpenBayes,在「公共教程」页面,选择一键部署 「IndexTTS-2:突破自回归 TTS 时长与情感控制瓶颈」教程。

image.png 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

模型提供了 4 种情感控制方法,下面逐一进行演示。

Same as the voice reference

首先上传一段参考音频,然后在「Text」中输入文本,最后点击「Synthesize」合成。
具体参数

  • do_sample:是否进行采样。
  • temperature:控制采样时概率分布的平滑程度。
  • top_p:核采样。
  • top_k:在每一步生成时,只考虑概率最高的 K 个 token。
  • num_beams:束搜索宽度。
  • repetition_penalty:重复惩罚,降低模型重复生成相同 token 的概率。
  • length_penalty:长度惩罚,鼓励或抑制模型生成更长或更短的序列。主要在使用 num_beams > 1 时有效。
  • max_mel_tokens:生成 Token 最大数量。

Use emotion reference audio

分别在「Voice Reference」和「Upload emotion reference audio」中上传参考音频和情感参考音频,在「Text」中输入文本,点击「Synthesize」合成。

Use emotion vectors

该方法支持调整情感参数和情感控制权重。
情感控制参数

  • Happy、Disgusted、Angry、Melancholic、Sad、Surprised、Afraid、Calm:分别对应 8 个基本情感维度。每个滑块的值(通常在 0.0 到 1.0 之间)表示希望在最终语音中体现该情感的强度。

Use text description to control emotion

该方法支持手动输入情感描述,但目前还处于实验阶段。