支持汉语的语音克隆开源模型

跑路程序员

2025-04-08 453 阅读2分钟

GPT-SoVITS

特点：支持中、英、日三语的TTS模型，特别适合零样本语音克隆。结合了预训练模型和SoVITS声码器，实现了5秒语音零样本克隆，以及利用1分钟语音微调来提升音色相似度。支持跨语言推理，用户仅需提供最长1分钟的音频即可克隆特定声音。
下载地址：GitHub - RVC-Boss/GPT-SoVITS

Fish Speech v1.4

特点：经过约15万小时的多语言数据训练，支持中、英、日等8种语言，语音克隆效果稳定且优秀。具有零样本和少样本文本转语音功能，输入10到30秒的语音样本即可生成高质量的TTS输出。不依赖于音素进行TTS，可处理任何语言脚本的文本，且生成速度快。
下载地址：GitHub - fishaudio/fish-speech

EmotiVoice

特点：支持中英文双语，提供2000多种音色，情感表达丰富，适合多样化场景。用户可以用自己的音频数据微调模型，训练后模型能用新音色说话，并同样支持情感控制。
下载地址：GitHub - netease-youdao/EmotiVoice

Llasa TTS

特点：由香港科技大学音频实验室开发的开源文本转语音模型，基于Llama 3.2B架构，支持中文和英语。仅需15秒的音频片段即可克隆特定人声，包括音色和情感，还能实现情感表达和个性化语音克隆。
体验地址：Hugging Face - Llasa-3B TTS

Index-TTS

特点：工业级可控高效零样本文本转语音系统，基于XTTS和Tortoise打造的GPT风格TTS模型，融合拼音纠错、标点停顿控制等功能。经过数万小时数据训练，性能出色，汉字+拼音混合建模，音色相似度高。
下载地址：GitHub - index-tts/index-tts

Spark-TTS

特点：基于大型语言模型（LLM）的文本转语音系统，支持中英文无缝切换，合成自然度超高。无需特定训练数据即可复制说话者音色，支持跨语言和代码切换，灵活性强。
下载地址：Hugging Face - SparkAudio/Spark-TTS-0.5B