支持汉语的语音克隆开源模型

375 阅读2分钟

GPT-SoVITS

  • 特点:支持中、英、日三语的TTS模型,特别适合零样本语音克隆。结合了预训练模型和SoVITS声码器,实现了5秒语音零样本克隆,以及利用1分钟语音微调来提升音色相似度。支持跨语言推理,用户仅需提供最长1分钟的音频即可克隆特定声音。
  • 下载地址GitHub - RVC-Boss/GPT-SoVITS

Fish Speech v1.4

  • 特点:经过约15万小时的多语言数据训练,支持中、英、日等8种语言,语音克隆效果稳定且优秀。具有零样本和少样本文本转语音功能,输入10到30秒的语音样本即可生成高质量的TTS输出。不依赖于音素进行TTS,可处理任何语言脚本的文本,且生成速度快。
  • 下载地址GitHub - fishaudio/fish-speech

EmotiVoice

  • 特点:支持中英文双语,提供2000多种音色,情感表达丰富,适合多样化场景。用户可以用自己的音频数据微调模型,训练后模型能用新音色说话,并同样支持情感控制。
  • 下载地址GitHub - netease-youdao/EmotiVoice

Llasa TTS

  • 特点:由香港科技大学音频实验室开发的开源文本转语音模型,基于Llama 3.2B架构,支持中文和英语。仅需15秒的音频片段即可克隆特定人声,包括音色和情感,还能实现情感表达和个性化语音克隆。
  • 体验地址Hugging Face - Llasa-3B TTS

Index-TTS

  • 特点:工业级可控高效零样本文本转语音系统,基于XTTS和Tortoise打造的GPT风格TTS模型,融合拼音纠错、标点停顿控制等功能。经过数万小时数据训练,性能出色,汉字+拼音混合建模,音色相似度高。
  • 下载地址GitHub - index-tts/index-tts

Spark-TTS

  • 特点:基于大型语言模型(LLM)的文本转语音系统,支持中英文无缝切换,合成自然度超高。无需特定训练数据即可复制说话者音色,支持跨语言和代码切换,灵活性强。
  • 下载地址Hugging Face - SparkAudio/Spark-TTS-0.5B