商业 TTS 贵、还不能本地跑?这个 2.8 万星开源项目把这个问题一起解决了

0 阅读4分钟

图片

做过内容创作的人都知道,给视频配音是个麻烦事。

Azure TTS 按字符收费,一篇稿子下来几块钱,量大了肉疼。Google TTS 中文效果时好时坏,读到专有名词就翻车。ElevenLabs 效果确实好,但月费不便宜,而且数据全上传到人家服务器,隐私这关过不去。

fish-speech 把这三个问题一起解决了:本地运行、中文效果 SOTA、支持声音克隆,完全开源,数据不出门。

它解决了什么问题

传统商业 TTS 有三道坎:

钱的问题。Azure、Google、讯飞这些按字符或按请求收费,个人用还好,批量处理有声书、播客脚本,成本直接起飞。

效果的问题。中文 TTS 的老大难是多音字、停顿节奏、情感表达。很多商业方案读出来像机器人背课文,听两分钟就烦了。

隐私的问题。你的声音数据、文本内容全部上传到第三方服务器。对于企业内部文档、个人隐私内容,这是硬伤。

fish-speech 的答案是:把模型跑在你自己的机器上,效果对标甚至超过部分商业方案。

核心能力

多语言,中文是重点

fish-speech 支持中文、英文、日文等多种语言,中文是重点优化方向。它能正确处理中文的停顿节奏、语气词,读起来不像在念稿子。

对于中英混读的场景(比如技术文档里夹杂英文术语),它的处理也比大多数方案自然。

声音克隆:几秒参考音频就够

这是 fish-speech 最吸引人的功能。给它一段参考音频,它就能用那个音色来合成新的文本。

不需要几小时的录音数据,几秒到几十秒的清晰音频就能工作。想让 AI 用你自己的声音读文章?想复刻某个特定音色?这个功能直接打开了一扇门。

注意:声音克隆需要提供参考音频文件,效果取决于参考音频的质量和时长,建议使用清晰、无背景噪音的录音。

三种使用方式,覆盖不同场景

WebUI:有图形界面,上传参考音频、输入文本、点击生成,适合不想写代码的用户。

命令行:适合批量处理,写个脚本跑一批文本,自动化流程。

Python API:集成到自己的项目里,几行代码调用,适合开发者。

还支持 Docker 部署,环境配置省心不少。

快速上手

安装依赖(建议用虚拟环境):

# 克隆仓库
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

# 安装依赖
pip install -e .

下载模型权重,当前最新版为 s2-pro(需要至少 24GB 显存,我现在的RTX 3090 刚好够用):

hf download fishaudio/s2-pro --local-dir checkpoints/s2-pro

更多模型版本见 HuggingFace 合集:huggingface.co/collections…

命令行推理分三步。声音克隆场景下,先从参考音频提取 VQ tokens:

python fish_speech/models/dac/inference.py \
    -i "test.wav" \
    --checkpoint-path "checkpoints/s2-pro/codec.pth"

得到 fake.npy 后,用文本生成 Semantic tokens:

python fish_speech/models/text2semantic/inference.py \
    --text "您想要转换的文本" \
    --prompt-text "您的参考文本" \
    --prompt-tokens "fake.npy"

最后从 Semantic tokens 生成音频:

python fish_speech/models/dac/inference.py \
    -i "codes_0.npy"

输出为 fake.wav。完整文档:speech.fish.audio/zh/inferenc…

仓库提供 WebUI 界面,按官方 README 启动后访问 http://localhost:7860 即可使用图形界面。

适合哪些场景

有声书制作:把文字稿批量转成语音,不用请配音演员,成本直接降到接近零。

视频配音:短视频、教程视频的旁白配音,本地生成,不用担心版权和隐私。

AI 助手个性化:给自己的 AI 助手配上特定音色,用声音克隆功能复刻喜欢的声音风格。

内容本地化:把英文内容翻译后用中文 TTS 配音,或者反过来,多语言内容生产。

企业内部应用:内部文档朗读、培训材料配音,数据不出内网,合规没压力。

和同类方案比一比

方案优势劣势
fish-speech本地运行、声音克隆、中文效果好需要 GPU,部署有门槛
Coqui TTS老牌开源方案已停止维护
Edge TTS免费、效果不错依赖微软在线服务,无法离线
ElevenLabs效果顶级收费、数据上云
Azure/Google TTS稳定、多语言按量收费、数据上云

fish-speech 的核心优势是"本地 + 克隆"的组合,这是商业方案不愿意给、开源方案里少有做好的。

对于有 GPU 的用户(哪怕是消费级显卡),fish-speech 是目前开源 TTS 里综合体验最好的选择之一。没有 GPU 的话,可以先去 fish.audio/zh-CN/ 体验在线 demo,感受一下效果再决定要不要本地部署。

写在最后

TTS 这个赛道,商业方案一直靠"效果护城河"收费。fish-speech 的出现,把这道墙拆了一大半。

28028 个 Star,FishAudio 团队持续维护,社区活跃,这不是一个玩票项目。

如果你在做内容创作、开发语音相关应用,或者只是想给自己的 AI 助手配个好听的声音,fish-speech 值得花半小时试一试。

GitHub:github.com/fishaudio/f…

在线体验:fish.audio