声音克隆自由了！开源模型本地跑，不耗Token，不限次数，普通电脑也能玩平常大家在制作视频的时候，可能都想自己视频上的语

大家好，我是吾鳴。专注于分享提升工作与生活效率的工具，无偿分享AI领域相关的精选报告，持续关注AI的前沿动向。

平常大家在制作视频的时候，可能都想自己视频上的语音可以特别一些，无论是声音的音色还是语气等，现在很多市面上的工具要么是声音固定，要么就是需要充值才能使用到声音克隆的功能。

本文将给大家介绍一款开源的声音克隆软件，这款软件支持多种文生语音的模型直接运行在本地，普通的电脑也能玩，而且效果还很不错。

这款开源软件的名字叫做Voicebox。

什么是Voicebox？

Voicebox是一款以本地化为核心的AI语音工作室，是一款开源免费的声音克隆工具，你可以使用它从短短的几秒钟的语音中克隆声音，生成语音，支持中文、英语、日语、阿拉伯语等多国语言。

它的所有的数据都是运行在本地上，包括文本转语音的大模型也是运行在本地上，支持多种文本转语音的开源大模型，比如Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox等。

除了可以克隆声音之外，它还能给生成好的语音增加特效，比如混响、延迟、合唱等。

它除了能根据文本生成语音外，还能把语音转成对应的文本。

它除了有直观可操作的GUI界面之外，它对每一个操作都要对应的Restful API，不仅如此，它还能通过MCP的方式与Claude Code、OpenClaw等Agent进行结合，让Agent们操控语音接口生成对应的语音。

它支持在Windows、Linux、MacOS、Docker等多种方式进行部署，有直接可视化的界面。

支持的TTS开源模型

Voicebox支持多种开源的文本转语音（Text To Speech）大模型，包括Qwen TTS、Qwen CustomVoice、LuxTTS、Chatterbox TTS、TADA和Kokoro。

Qwen TTS，这个模型支持1.7B、0.6B两个参数规格，参数越大模型的体积则越大，运行时需要的配置将会更高，语音生成时间会更久；这个模型支持高质量的多语言克隆，中文处理效果佳。

Qwen CustomVoice，这个模型也是支持1.7B、0.6B这两个规格的参数，模型里面有9种预设好的语音音色，不需要参考音频也能正常生成语音，中文支持佳。

LuxTTS，这个模型非常的轻量，1GB显存就可以玩转，对CPU的用户很友好，英文支持佳。

Chatterbox TTS，这个模型的语言支持范围最广，支持阿拉伯、丹麦、希腊语、波兰语等23种语言。

TADA，HumeAI的语音模型，在长文本转语音的处理效果上最佳。

Kokoro，内置了90多种预设的音色，模型体积很小，仅有84M，适合CPU推理。

Whisper，OpenAI开源的处理语音转文本的大模型，分别支持base、small、large等多个版本。

如何安装Voicebox？

Voicebox的安装比较简单，就是去到官方网站，找到你的系统类型的安装包，点击下载。

下载到安装包之后，便双击安装包，然后再按照安装的指引向导一步步进行安装即可。

如何使用Voicebox？

在安装好Voicebox之后，先不要着急立马去使用，先按照你的需要选择对应的大模型，先把对应的大模型下载到本地电脑上，因为对于Voicebox来说，模型都是运行在本地电脑上的，所以可以无限续杯。

当进入到Voicebox的首页后，找到左侧菜单栏的“模型”菜单，右边选择对应的模型进行下载即可，模型比较大，而且是对接了HuggaceFace上的模型，所以时间比较久，耐心等待一会。

在模型下载完成之后，便可以开始进行声音的克隆了，首先先创建一个声音，准备好参考音频，填写必要的信息。

需要注意的是，声音样本建议是单个30秒的样本效果是最佳，并且添加声音样本时，需要文本去写出声音的内容。

在声音创建好之后，便可以开始使用声音来生成语音了，只需要复制好文本，然后添加到Voicebox的输入框中即可，选择语言、模型。

不同的模型，语音生成的时间不同，我选择的是Qwen-TTS 0.6B，10秒左右即可生成。

可以看看语音克隆的效果（第一段是原声，第二段是Voicebox生成的语音），觉得人的音色的克隆、语调、语速等处理的还是很不错的。

(语音上传不了，我这里口头描述一下效果，生成的语音效果非常不错，可以以假乱真了)

关于语音转成文案以及语音特效的功能分别在左侧菜单栏中就可以直接使用，这里不再阐述。

如何与OpenClaw结合使用？

Voicebox和Agent结合起来有什么使用场景呢？这个使用场景还挺多，首先如果你需要使用OpenClaw来生成视频配音、播客内容等，可以使用到Voicebox；其次，便是如果你想让OpenClaw可以开口与你对话，那么可以本地部署一个Voicebox，然后让OpenClaw调用Voicebox的接口把文本转成语音之后再给你返回。

Voicebox是有提供Restful的接口来使用相关的功能的，所以它既可以是一个客户端也可以是一个服务端。

它的HTTP接口非常的全面，完全可以把它部署起来之后，提供给Agent来使用。

除了Restful接口之外，它还有MCP协议的接口，Claude Code 直接一句命令，便可以使用上本地的Voicebox。

写到最后

本文主要分享了开源软件Voicebox的使用，Voicebox主要是一个以本地为核心的语音转化工具，模型都是运行在本地的电脑上，声音克隆不需要消耗token，可以使劲造，数据内容也是在本地，不外发，隐私性好。

Voicebox支持7种开源的文本转语音的大模型，但是因为模型体积都比较大，而且是从Huggingface上面获取，因此时间会比较长，需要耐心等待。

Voicebox除了可以使用客户端的方式操作生成语音外，还可以和OpenClaw、Claude Code等Agent结合起来一起使用。

好了，本文的分享就到这里，如果您觉得有收获的话，可以给个一键三连，您的鼓励是吾鳴持续输出的最大动力。