超低资源占用的零样本语音克隆模型,IndexTTS-1.5 上线模力方舟

248 阅读2分钟

随着 AI 配音与语音克隆需求持续增长,模力方舟现已上线来自 bilibili AI 团队发布的高质量开源模型IndexTTS-1.5支持中英文零样本语音合成,兼顾语音自然度、发音准确性与推理效率。

不论你是视频创作者、语音相关 AI 应用开发者,还是播客制作者,现在都可以在模力方舟平台,直接上传参考音频 + 文本,即可合成自然、稳定、个性化的语音内容,在线体验地址:ai.gitee.com/serverless-…

中文语音克隆模型不再「读错字」

IndexTTS-1.5是一个工业级 GPT 架构 TTS 系统,在开放式多语种 TTS 发展的基础上,特别解决了以下几个中文语音生成痛点:

  • 无需标注音素,支持中英混合输入,自动学习词境中的发音;
  • 支持直接输入拼音进行发音纠错,解决多音字/生僻字读错的问题;
  • 只需一段参考语音即可完成零样本克隆,支持跨语言克隆、风格迁移;
  • 基于BigVGAN2,推理速度快、语音质量高,生成效果更自然。

一个更好用的多语种零样本 TTS 模型

IndexTTS-1.5基于XTTSTortoise架构,核心改进包括:

  • 字符 + 拼音混合建模:训练时随机引入拼音作为先验,推理时可手动输入纠错;
  • Conformer 条件编码器:比传统 Transformer 编码器更稳定,音色一致性更强;
  • FSQ 编码器优化:相比传统 VQ,码本利用率更高,合成更稳更准;
  • BigVGAN2 解码器:直接从 LLM 隐变量重建音频,保真度与速度兼具。

基于提示语音和文本标记生成声学标记,再由 BigVGAN2 解码器将模型的输出隐变量转换为语音波形

多项评测领先主流开源系统

在中英文通用评测集(AISHELL-1、CommonVoice、LibriSpeech)上,IndexTTS 显著优于 FishSpeech、CosyVoice2、F5-TTS 等热门模型:

同时,在 200 条语音合成样本中,IndexTTS 虽非耗时最短,但 GPU 占用率仅为 28.47%,远低于其他模型,在推理速度与资源效率之间实现了良好平衡,适合大规模部署与在线生成场景。

欢迎前往模力方舟体验IndexTTS-1.5ai.gitee.com/serverless-…


模力方舟的 AI 模型广场提供了行业大模型、文本生成、视觉模型、语音多模态、图像生成与处理、3D生成、文档处理/OCR、视频生成、自动语音识别、语音合成、向量化和重排、代码生成、风控识别十三大类共 106 款各领域的顶尖开源模型的在线体验和 API 使用。通过购买模型资源包,即可通过极低的价格即可尽享众多主流模型。