IndexTTS2 开源模型的核心技术是【解耦说话人索引】,它将“音色”与“语言内容”彻底分离。
可以用一段参考音频,生成同一音色的中文或英文语音。整个过程是零样本,仅需3-6秒音频,无需为新语言重新训练。
技术亮点:
零样本跨语言合成 (Zero-shot Cross-lingual)
创新的【解耦说话人索引】机制
性能在跨语言MOS/SMOS评分上超越 XTTS 2
技术细节再多,不如亲耳一听。
在线Demo已上线:
vibevoice.info
可以用一段参考音频,生成同一音色的中文或英文语音。整个过程是零样本,仅需3-6秒音频,无需为新语言重新训练。
技术亮点:
技术细节再多,不如亲耳一听。
在线Demo已上线:
展开
评论
点赞