做过内容创作的人都知道,给视频配音是个麻烦事。
Azure TTS 按字符收费,一篇稿子下来几块钱,量大了肉疼。Google TTS 中文效果时好时坏,读到专有名词就翻车。ElevenLabs 效果确实好,但月费不便宜,而且数据全上传到人家服务器,隐私这关过不去。
fish-speech 把这三个问题一起解决了:本地运行、中文效果 SOTA、支持声音克隆,完全开源,数据不出门。
它解决了什么问题
传统商业 TTS 有三道坎:
钱的问题。Azure、Google、讯飞这些按字符或按请求收费,个人用还好,批量处理有声书、播客脚本,成本直接起飞。
效果的问题。中文 TTS 的老大难是多音字、停顿节奏、情感表达。很多商业方案读出来像机器人背课文,听两分钟就烦了。
隐私的问题。你的声音数据、文本内容全部上传到第三方服务器。对于企业内部文档、个人隐私内容,这是硬伤。
fish-speech 的答案是:把模型跑在你自己的机器上,效果对标甚至超过部分商业方案。
核心能力
多语言,中文是重点
fish-speech 支持中文、英文、日文等多种语言,中文是重点优化方向。它能正确处理中文的停顿节奏、语气词,读起来不像在念稿子。
对于中英混读的场景(比如技术文档里夹杂英文术语),它的处理也比大多数方案自然。
声音克隆:几秒参考音频就够
这是 fish-speech 最吸引人的功能。给它一段参考音频,它就能用那个音色来合成新的文本。
不需要几小时的录音数据,几秒到几十秒的清晰音频就能工作。想让 AI 用你自己的声音读文章?想复刻某个特定音色?这个功能直接打开了一扇门。
注意:声音克隆需要提供参考音频文件,效果取决于参考音频的质量和时长,建议使用清晰、无背景噪音的录音。
三种使用方式,覆盖不同场景
WebUI:有图形界面,上传参考音频、输入文本、点击生成,适合不想写代码的用户。
命令行:适合批量处理,写个脚本跑一批文本,自动化流程。
Python API:集成到自己的项目里,几行代码调用,适合开发者。
还支持 Docker 部署,环境配置省心不少。
快速上手
安装依赖(建议用虚拟环境):
# 克隆仓库
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech
# 安装依赖
pip install -e .
下载模型权重,当前最新版为 s2-pro(需要至少 24GB 显存,我现在的RTX 3090 刚好够用):
hf download fishaudio/s2-pro --local-dir checkpoints/s2-pro
更多模型版本见 HuggingFace 合集:huggingface.co/collections…
命令行推理分三步。声音克隆场景下,先从参考音频提取 VQ tokens:
python fish_speech/models/dac/inference.py \
-i "test.wav" \
--checkpoint-path "checkpoints/s2-pro/codec.pth"
得到 fake.npy 后,用文本生成 Semantic tokens:
python fish_speech/models/text2semantic/inference.py \
--text "您想要转换的文本" \
--prompt-text "您的参考文本" \
--prompt-tokens "fake.npy"
最后从 Semantic tokens 生成音频:
python fish_speech/models/dac/inference.py \
-i "codes_0.npy"
输出为 fake.wav。完整文档:speech.fish.audio/zh/inferenc…
仓库提供 WebUI 界面,按官方 README 启动后访问 http://localhost:7860 即可使用图形界面。
适合哪些场景
有声书制作:把文字稿批量转成语音,不用请配音演员,成本直接降到接近零。
视频配音:短视频、教程视频的旁白配音,本地生成,不用担心版权和隐私。
AI 助手个性化:给自己的 AI 助手配上特定音色,用声音克隆功能复刻喜欢的声音风格。
内容本地化:把英文内容翻译后用中文 TTS 配音,或者反过来,多语言内容生产。
企业内部应用:内部文档朗读、培训材料配音,数据不出内网,合规没压力。
和同类方案比一比
| 方案 | 优势 | 劣势 |
|---|---|---|
| fish-speech | 本地运行、声音克隆、中文效果好 | 需要 GPU,部署有门槛 |
| Coqui TTS | 老牌开源方案 | 已停止维护 |
| Edge TTS | 免费、效果不错 | 依赖微软在线服务,无法离线 |
| ElevenLabs | 效果顶级 | 收费、数据上云 |
| Azure/Google TTS | 稳定、多语言 | 按量收费、数据上云 |
fish-speech 的核心优势是"本地 + 克隆"的组合,这是商业方案不愿意给、开源方案里少有做好的。
对于有 GPU 的用户(哪怕是消费级显卡),fish-speech 是目前开源 TTS 里综合体验最好的选择之一。没有 GPU 的话,可以先去 fish.audio/zh-CN/ 体验在线 demo,感受一下效果再决定要不要本地部署。
写在最后
TTS 这个赛道,商业方案一直靠"效果护城河"收费。fish-speech 的出现,把这道墙拆了一大半。
28028 个 Star,FishAudio 团队持续维护,社区活跃,这不是一个玩票项目。
如果你在做内容创作、开发语音相关应用,或者只是想给自己的 AI 助手配个好听的声音,fish-speech 值得花半小时试一试。
GitHub:github.com/fishaudio/f…
在线体验:fish.audio