GPT-SoVITS
- 特点:支持中、英、日三语的TTS模型,特别适合零样本语音克隆。结合了预训练模型和SoVITS声码器,实现了5秒语音零样本克隆,以及利用1分钟语音微调来提升音色相似度。支持跨语言推理,用户仅需提供最长1分钟的音频即可克隆特定声音。
- 下载地址:GitHub - RVC-Boss/GPT-SoVITS
Fish Speech v1.4
- 特点:经过约15万小时的多语言数据训练,支持中、英、日等8种语言,语音克隆效果稳定且优秀。具有零样本和少样本文本转语音功能,输入10到30秒的语音样本即可生成高质量的TTS输出。不依赖于音素进行TTS,可处理任何语言脚本的文本,且生成速度快。
- 下载地址:GitHub - fishaudio/fish-speech
EmotiVoice
- 特点:支持中英文双语,提供2000多种音色,情感表达丰富,适合多样化场景。用户可以用自己的音频数据微调模型,训练后模型能用新音色说话,并同样支持情感控制。
- 下载地址:GitHub - netease-youdao/EmotiVoice
Llasa TTS
- 特点:由香港科技大学音频实验室开发的开源文本转语音模型,基于Llama 3.2B架构,支持中文和英语。仅需15秒的音频片段即可克隆特定人声,包括音色和情感,还能实现情感表达和个性化语音克隆。
- 体验地址:Hugging Face - Llasa-3B TTS
Index-TTS
- 特点:工业级可控高效零样本文本转语音系统,基于XTTS和Tortoise打造的GPT风格TTS模型,融合拼音纠错、标点停顿控制等功能。经过数万小时数据训练,性能出色,汉字+拼音混合建模,音色相似度高。
- 下载地址:GitHub - index-tts/index-tts
Spark-TTS
- 特点:基于大型语言模型(LLM)的文本转语音系统,支持中英文无缝切换,合成自然度超高。无需特定训练数据即可复制说话者音色,支持跨语言和代码切换,灵活性强。
- 下载地址:Hugging Face - SparkAudio/Spark-TTS-0.5B