随着 AI 配音与语音克隆需求持续增长,模力方舟现已上线来自 bilibili AI 团队发布的高质量开源模型IndexTTS-1.5,支持中英文零样本语音合成,兼顾语音自然度、发音准确性与推理效率。
不论你是视频创作者、语音相关 AI 应用开发者,还是播客制作者,现在都可以在模力方舟平台,直接上传参考音频 + 文本,即可合成自然、稳定、个性化的语音内容,在线体验地址:ai.gitee.com/serverless-…
中文语音克隆模型不再「读错字」
IndexTTS-1.5是一个工业级 GPT 架构 TTS 系统,在开放式多语种 TTS 发展的基础上,特别解决了以下几个中文语音生成痛点:
- 无需标注音素,支持中英混合输入,自动学习词境中的发音;
- 支持直接输入拼音进行发音纠错,解决多音字/生僻字读错的问题;
- 只需一段参考语音即可完成零样本克隆,支持跨语言克隆、风格迁移;
- 基于
BigVGAN2,推理速度快、语音质量高,生成效果更自然。
一个更好用的多语种零样本 TTS 模型
IndexTTS-1.5基于XTTS和Tortoise架构,核心改进包括:
- 字符 + 拼音混合建模:训练时随机引入拼音作为先验,推理时可手动输入纠错;
- Conformer 条件编码器:比传统 Transformer 编码器更稳定,音色一致性更强;
- FSQ 编码器优化:相比传统 VQ,码本利用率更高,合成更稳更准;
- BigVGAN2 解码器:直接从 LLM 隐变量重建音频,保真度与速度兼具。
多项评测领先主流开源系统
在中英文通用评测集(AISHELL-1、CommonVoice、LibriSpeech)上,IndexTTS 显著优于 FishSpeech、CosyVoice2、F5-TTS 等热门模型:
同时,在 200 条语音合成样本中,IndexTTS 虽非耗时最短,但 GPU 占用率仅为 28.47%,远低于其他模型,在推理速度与资源效率之间实现了良好平衡,适合大规模部署与在线生成场景。
欢迎前往模力方舟体验IndexTTS-1.5:ai.gitee.com/serverless-…
模力方舟的 AI 模型广场提供了行业大模型、文本生成、视觉模型、语音多模态、图像生成与处理、3D生成、文档处理/OCR、视频生成、自动语音识别、语音合成、向量化和重排、代码生成、风控识别十三大类共 106 款各领域的顶尖开源模型的在线体验和 API 使用。通过购买模型资源包,即可通过极低的价格即可尽享众多主流模型。