商业 TTS 贵、还不能本地跑？这个 2.8 万星开源项目把这个问题一起解决了做过内容创作的人都知道，给视频配音是个麻烦

做过内容创作的人都知道，给视频配音是个麻烦事。

Azure TTS 按字符收费，一篇稿子下来几块钱，量大了肉疼。Google TTS 中文效果时好时坏，读到专有名词就翻车。ElevenLabs 效果确实好，但月费不便宜，而且数据全上传到人家服务器，隐私这关过不去。

fish-speech 把这三个问题一起解决了：本地运行、中文效果 SOTA、支持声音克隆，完全开源，数据不出门。

它解决了什么问题

传统商业 TTS 有三道坎：

钱的问题。Azure、Google、讯飞这些按字符或按请求收费，个人用还好，批量处理有声书、播客脚本，成本直接起飞。

效果的问题。中文 TTS 的老大难是多音字、停顿节奏、情感表达。很多商业方案读出来像机器人背课文，听两分钟就烦了。

隐私的问题。你的声音数据、文本内容全部上传到第三方服务器。对于企业内部文档、个人隐私内容，这是硬伤。

fish-speech 的答案是：把模型跑在你自己的机器上，效果对标甚至超过部分商业方案。

fish-speech 支持中文、英文、日文等多种语言，中文是重点优化方向。它能正确处理中文的停顿节奏、语气词，读起来不像在念稿子。

对于中英混读的场景（比如技术文档里夹杂英文术语），它的处理也比大多数方案自然。

这是 fish-speech 最吸引人的功能。给它一段参考音频，它就能用那个音色来合成新的文本。

不需要几小时的录音数据，几秒到几十秒的清晰音频就能工作。想让 AI 用你自己的声音读文章？想复刻某个特定音色？这个功能直接打开了一扇门。

注意：声音克隆需要提供参考音频文件，效果取决于参考音频的质量和时长，建议使用清晰、无背景噪音的录音。

WebUI：有图形界面，上传参考音频、输入文本、点击生成，适合不想写代码的用户。

命令行：适合批量处理，写个脚本跑一批文本，自动化流程。

Python API：集成到自己的项目里，几行代码调用，适合开发者。

还支持 Docker 部署，环境配置省心不少。

安装依赖（建议用虚拟环境）：

# 克隆仓库
git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

# 安装依赖
pip install -e .

下载模型权重，当前最新版为 s2-pro（需要至少 24GB 显存，我现在的RTX 3090 刚好够用）：

hf download fishaudio/s2-pro --local-dir checkpoints/s2-pro

更多模型版本见 HuggingFace 合集：huggingface.co/collections…

命令行推理分三步。声音克隆场景下，先从参考音频提取 VQ tokens：

python fish_speech/models/dac/inference.py \
    -i "test.wav" \
    --checkpoint-path "checkpoints/s2-pro/codec.pth"

得到 fake.npy 后，用文本生成 Semantic tokens：

python fish_speech/models/text2semantic/inference.py \
    --text "您想要转换的文本" \
    --prompt-text "您的参考文本" \
    --prompt-tokens "fake.npy"

最后从 Semantic tokens 生成音频：

python fish_speech/models/dac/inference.py \
    -i "codes_0.npy"

输出为 fake.wav。完整文档：speech.fish.audio/zh/inferenc…

仓库提供 WebUI 界面，按官方 README 启动后访问 http://localhost:7860 即可使用图形界面。

有声书制作：把文字稿批量转成语音，不用请配音演员，成本直接降到接近零。

视频配音：短视频、教程视频的旁白配音，本地生成，不用担心版权和隐私。

AI 助手个性化：给自己的 AI 助手配上特定音色，用声音克隆功能复刻喜欢的声音风格。

内容本地化：把英文内容翻译后用中文 TTS 配音，或者反过来，多语言内容生产。

企业内部应用：内部文档朗读、培训材料配音，数据不出内网，合规没压力。

fish-speech 的核心优势是"本地 + 克隆"的组合，这是商业方案不愿意给、开源方案里少有做好的。

对于有 GPU 的用户（哪怕是消费级显卡），fish-speech 是目前开源 TTS 里综合体验最好的选择之一。没有 GPU 的话，可以先去 fish.audio/zh-CN/ 体验在线 demo，感受一下效果再决定要不要本地部署。

TTS 这个赛道，商业方案一直靠"效果护城河"收费。fish-speech 的出现，把这道墙拆了一大半。

28028 个 Star，FishAudio 团队持续维护，社区活跃，这不是一个玩票项目。

如果你在做内容创作、开发语音相关应用，或者只是想给自己的 AI 助手配个好听的声音，fish-speech 值得花半小时试一试。

在线体验：fish.audio