15.1K Star！Fish Speech 1.5 正式上线！全球领先的多语言 TTS 工具！可本地部署“调教”。

如果说语音合成是未来 AI 的一个重要分支，那么 Fish Speech 1.5 的发布毫无疑问让这一领域变得更加精彩。

作为新一代的 TTS 工具，这款模型不仅在准确性、稳定性和跨语言能力上遥遥领先，还新增了五种语言支持，真正实现了“听得懂、说得好、用得广”的目标。

在介绍1.5的版本亮点之前，我们先回顾关于 Fish Speech 的项目信息。

项目介绍

FishSpeech 是由 FishAudio 团队开发的一款TTS语音生成工具，与ChatTTS属于同时期（2024年6-7月）开源的超热门的TTS项目。

而说起其团队成员，更是GitHub上的各类SVC大佬，也就是专做AI声音克隆的教父们。

FishSpeech 在我刚开始看到它的时候，在GitHub上就有了3.1k Star量，如今5个月过去了，已经揽获了15.1k Star量。

可见用户增长之快，因为确实好用，质量也上乘。

其功能也吸引了众多用户青睐。

主要功能

零样本 & 小样本 TTS：只需 10-30 秒的声音样本，即可生成高质量语音，完美支持语音克隆需求。
无音素依赖的强泛化能力：Fish Speech 的模型对音素无依赖，可以轻松处理任何文字表示的语言，让 TTS 应用场景更加广泛。
超高准确率：在 5 分钟的英文文本上，字符错误率（CER）和词错误率（WER）仅约 2%。
用户友好的多界面支持：

WebUI：基于 Gradio 的网页用户界面，兼容主流浏览器（Chrome、Firefox、Edge）。

GUI 推理：提供 PyQt6 图形界面，与 API 服务器无缝协作。

轻松部署：无论是本地还是云端，都支持快速部署，最大限度减少速度损失，为开发者提供极大的便利性。

了解了Fish Speech的基础特性后，我们再来看看Fish Speech 1.5 的亮点更新功能。

Fish Speech 1.5 的亮点

1、全球第二的强悍性能

在 TTS-Arena 排名中，Fish Speech 1.5（匿名参赛）获得了全球第二名，这足以证明其技术实力！

2、超大规模训练数据及多语言支持

使用了 100万小时的多语言训练数据，支持多达 13 种语言，包括 英语、中文、日语、韩语、法语、德语、西班牙语 等，真正实现了跨语言自由切换。

3、极速语音合成

延迟低于 150ms，满足即时语音克隆的需求。

4、预训练模型开源

预训练模型完全开源，开发者可以自由探索和定制。

5、新增实时无缝对话功能（即将推出）

后期将支持用户随时切换语音库进行交互式聊天，体验感进一步提升。

快速上手

今天就不详细说本地部署上的步骤了。喜欢折腾的小伙伴可以参考speech.fish.audio文档研究。

官方也提供了两种可以体验 Fish Speech 1.5 的体验站点。

第一个就是已上线的官网首页 fish.audio，特别多人在用。

其次是在抱抱脸（HuggingFace）上部署的简易版。

直接看看官网上线的项目，比较有看头一些。

界面功能

首页进入主页后，就可以立即体验1.5的文生语音及语音转文本的功能了。

「发现」标签页下有海量人物音色可以直接使用，包括明星人物、游戏角色、动漫角色等。

这里上传了许多创作者训练的各种人物音色，比如理塘丁真、郭德纲等明星音色，还有游戏及动漫角色纳西妲、赛马娘等，还有海量音色可直接使用。

这也是其他开源TTS模型所不具备的，如果有现成的创作者训练好的音色模型，也不用我们自己去找，去训练，可以直接使用。

语音合成，一秒即用

打开「语音合成」标签页，输入需要进行语音转换的文本，选择想要转换的声音音色（可直接用上面的海量音色库），点击创建即可完成文本转语音功能。

自定义训练声音模型

FishSpeech 训练不像So-VITS-SVC需要填写一大堆训练参数，有时候还需要进行微调。

点击「构建声音」标签页，即可跳转到声音训练界面，只需要提前准备好相关的同一个角色的音频文件，所有文件合集不可大于150M，填写好角色模型名称即可开始训练。

同时它支持私有训练选项，训练完成后只供个人使用，别人在FishSpeech是看不到的。

写在最后

Fish Speech 1.5 的更新，对于语音克隆爱好者及配音人员，是真的利好。

不论是用来自训练语音模型，还是借助它进行动漫角色配音、AI翻唱或是搞怪剪辑都是可以轻松实现的。

可以收藏起来，将来让你的项目“声”动起来！

官网主页：fish.audio

GitHub 项目地址： github.com/fishaudio/f…

HF Demo：huggingface.co/spaces/fish…