15.1K Star!Fish Speech 1.5 正式上线!全球领先的多语言 TTS 工具!可本地部署“调教”。

261 阅读4分钟

如果说语音合成是未来 AI 的一个重要分支,那么 Fish Speech 1.5 的发布毫无疑问让这一领域变得更加精彩。

图片

作为新一代的 TTS 工具,这款模型不仅在准确性、稳定性和跨语言能力上遥遥领先,还新增了五种语言支持,真正实现了“听得懂、说得好、用得广”的目标。

在介绍1.5的版本亮点之前,我们先回顾关于 Fish Speech 的项目信息。

项目介绍

FishSpeech 是由 FishAudio 团队开发的一款TTS语音生成工具,与ChatTTS属于同时期(2024年6-7月)开源的超热门的TTS项目。

而说起其团队成员,更是GitHub上的各类SVC大佬,也就是专做AI声音克隆的教父们。

图片

FishSpeech 在我刚开始看到它的时候,在GitHub上就有了3.1k Star量,如今5个月过去了,已经揽获了15.1k Star量。

图片

可见用户增长之快,因为确实好用,质量也上乘。

其功能也吸引了众多用户青睐。

主要功能

  •  零样本 & 小样本 TTS:只需 10-30 秒的声音样本,即可生成高质量语音,完美支持语音克隆需求。

  •  无音素依赖的强泛化能力:Fish Speech 的模型对音素无依赖,可以轻松处理任何文字表示的语言,让 TTS 应用场景更加广泛。

  •  超高准确率:在 5 分钟的英文文本上,字符错误率(CER)和词错误率(WER)仅约 2%。

  •  用户友好的多界面支持

 WebUI:基于 Gradio 的网页用户界面,兼容主流浏览器(Chrome、Firefox、Edge)。

 GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。

  •  轻松部署:无论是本地还是云端,都支持快速部署,最大限度减少速度损失,为开发者提供极大的便利性。

了解了Fish Speech的基础特性后,我们再来看看Fish Speech 1.5 的亮点更新功能。

Fish Speech 1.5 的亮点

1、全球第二的强悍性能

在 TTS-Arena 排名中,Fish Speech 1.5(匿名参赛)获得了全球第二名,这足以证明其技术实力!

图片

2、超大规模训练数据及多语言支持

使用了 100万 小时的多语言训练数据,支持多达 13 种语言,包括 英语、中文、日语、韩语、法语、德语、西班牙语 等,真正实现了跨语言自由切换。

3、极速语音合成

延迟低于 150ms,满足即时语音克隆的需求。

4、预训练模型开源

预训练模型完全开源,开发者可以自由探索和定制。

5、新增实时无缝对话功能(即将推出)

后期将支持用户随时切换语音库进行交互式聊天,体验感进一步提升。

快速上手

今天就不详细说本地部署上的步骤了。喜欢折腾的小伙伴可以参考speech.fish.audio文档研究。

图片

官方也提供了两种可以体验 Fish Speech 1.5 的体验站点。

第一个就是已上线的官网首页 fish.audio,特别多人在用。

其次是在抱抱脸(HuggingFace)上部署的简易版。

图片

直接看看官网上线的项目,比较有看头一些。

界面功能

首页进入主页后,就可以立即体验1.5的文生语音及语音转文本的功能了。

图片

「发现」标签页下有海量人物音色可以直接使用,包括明星人物、游戏角色、动漫角色等。

图片

这里上传了许多创作者训练的各种人物音色,比如理塘丁真、郭德纲等明星音色,还有游戏及动漫角色纳西妲、赛马娘等,还有海量音色可直接使用。

这也是其他开源TTS模型所不具备的,如果有现成的创作者训练好的音色模型,也不用我们自己去找,去训练,可以直接使用。

语音合成,一秒即用

打开「语音合成」标签页,输入需要进行语音转换的文本,选择想要转换的声音音色(可直接用上面的海量音色库),点击创建即可完成文本转语音功能。

图片

自定义训练声音模型

FishSpeech 训练不像So-VITS-SVC需要填写一大堆训练参数,有时候还需要进行微调。

点击「构建声音」标签页,即可跳转到声音训练界面,只需要提前准备好相关的同一个角色的音频文件,所有文件合集不可大于150M,填写好角色模型名称即可开始训练。

图片

同时它支持私有训练选项,训练完成后只供个人使用,别人在FishSpeech是看不到的。

写在最后

Fish Speech 1.5 的更新,对于语音克隆爱好者及配音人员,是真的利好。

不论是用来自训练语音模型,还是借助它进行动漫角色配音、AI翻唱或是搞怪剪辑都是可以轻松实现的。

可以收藏起来,将来让你的项目“声”动起来!

官网主页:fish.audio

GitHub 项目地址: github.com/fishaudio/f…

HF Demo:huggingface.co/spaces/fish…