IndexTTS2 开源模型的核心技术是【解耦说话人索引】,它将“音色”与“语言内容”彻底分离。

可以用一段参考音频,生成同一音色的中文或英文语音。整个过程是零样本,仅需3-6秒音频,无需为新语言重新训练。

技术亮点:
✅ 零样本跨语言合成 (Zero-shot Cross-lingual)
✅ 创新的【解耦说话人索引】机制
✅ 性能在跨语言MOS/SMOS评分上超越 XTTS 2

技术细节再多,不如亲耳一听。
在线Demo已上线: vibevoice.info
展开
努力犯错玩AI于2025-09-17 04:22发布的图片
评论