超低资源占用的零样本语音克隆模型，IndexTTS-1.5 上线模力方舟随着 AI 配音与语音克隆需求持续增长，模力方舟

随着 AI 配音与语音克隆需求持续增长，模力方舟现已上线来自 bilibili AI 团队发布的高质量开源模型IndexTTS-1.5，支持中英文零样本语音合成，兼顾语音自然度、发音准确性与推理效率。

不论你是视频创作者、语音相关 AI 应用开发者，还是播客制作者，现在都可以在模力方舟平台，直接上传参考音频 + 文本，即可合成自然、稳定、个性化的语音内容，在线体验地址：ai.gitee.com/serverless-…

中文语音克隆模型不再「读错字」

IndexTTS-1.5是一个工业级 GPT 架构 TTS 系统，在开放式多语种 TTS 发展的基础上，特别解决了以下几个中文语音生成痛点：

无需标注音素，支持中英混合输入，自动学习词境中的发音；
支持直接输入拼音进行发音纠错，解决多音字/生僻字读错的问题；
只需一段参考语音即可完成零样本克隆，支持跨语言克隆、风格迁移；
基于BigVGAN2，推理速度快、语音质量高，生成效果更自然。

一个更好用的多语种零样本 TTS 模型

IndexTTS-1.5基于XTTS和Tortoise架构，核心改进包括：

字符 + 拼音混合建模：训练时随机引入拼音作为先验，推理时可手动输入纠错；
Conformer 条件编码器：比传统 Transformer 编码器更稳定，音色一致性更强；
FSQ 编码器优化：相比传统 VQ，码本利用率更高，合成更稳更准；
BigVGAN2 解码器：直接从 LLM 隐变量重建音频，保真度与速度兼具。

基于提示语音和文本标记生成声学标记，再由 BigVGAN2 解码器将模型的输出隐变量转换为语音波形

多项评测领先主流开源系统

在中英文通用评测集（AISHELL-1、CommonVoice、LibriSpeech）上，IndexTTS 显著优于 FishSpeech、CosyVoice2、F5-TTS 等热门模型：

同时，在 200 条语音合成样本中，IndexTTS 虽非耗时最短，但 GPU 占用率仅为 28.47%，远低于其他模型，在推理速度与资源效率之间实现了良好平衡，适合大规模部署与在线生成场景。

欢迎前往模力方舟体验IndexTTS-1.5：ai.gitee.com/serverless-…

模力方舟的 AI 模型广场提供了行业大模型、文本生成、视觉模型、语音多模态、图像生成与处理、3D生成、文档处理/OCR、视频生成、自动语音识别、语音合成、向量化和重排、代码生成、风控识别十三大类共 106 款各领域的顶尖开源模型的在线体验和 API 使用。通过购买模型资源包，即可通过极低的价格即可尽享众多主流模型。