最近,三金不是试了一下 ChatTTS 这个 AI 语音大模型嘛,从最初的部署到实际使用,再到接入 Dify,整个过程都相当顺畅。不过,虽然能接入 Dify,但目前它只能展示生成的文件路径,而不能直接播放语音文件。
说实话,部署 ChatTTS 的前期准备工作还挺多的。需要安装各种依赖,拉取项目的源代码,还要创建并激活虚拟环境。这些步骤对于不熟悉技术的朋友来说,可能会有点繁琐。不过幸运的是,有位大佬开发了一款本地离线的 ChatTTS 整合包,并且已经在 Github 上开源了,这个项目就叫做 ChatTTS-Enhanced。
该项目提供了针对不同操作系统(Windows 和 MacOS)的安装包,可以说是非常贴心了。只要双击打开对应的安装包即可,超级简单~
目前,这个项目已经更新到了 V3 版本,这个新版本增加了不少让人眼前一亮的功能。以下是一些主要的亮点:
- 音质增强和降噪:这个版本解决了 ChatTTS 生成语音时常见的噪音问题,生成的语音更为清晰。
- 批量处理功能:支持多个 TXT 和 SRT 文件的批量处理,省去了单个文件逐一处理的麻烦。
- 长文本处理:支持长文本的处理,甚至可以中英混读,还可以自定义切割文本的长度。
- 导出 SRT 文件:这个功能特别适合配字幕的场景,生成语音的同时还能导出对应的字幕文件。
- 语速、停顿、笑声、口语化程度调节:可以根据需要自定义语音的表达方式,更加灵活。
- 导入 ChatTTS Speaker 音色:如果你对某个音色有特别的偏好,可以去音色库下载并导入,方便个性化定制。
- 储存音色配置与选项配置:这一点对于那些经常需要调整设置的人来说非常方便,避免了每次都要重新配置的麻烦。
如果你对某种特定的音色感兴趣,可以到 音色库 中挑选和下载一个喜欢的音色文件(pt 文件格式)。下载后,直接在 ChatTTS-Enhanced 中上传即可,非常方便。
不过需要注意的是,这个整合包需要一定的系统配置才能顺利运行:
- Windows:需要 Windows 10 或 11 系统,并且支持 CPU 和 GPU。
- MacOS:不管是 M 系列芯片还是 Intel 芯片,系统版本需在 10.13 以上。
显存方面,如果不开启音频增强功能,最低需要 4G 显存才能运行。对于 Mac 用户来说,目前作者只做了 CPU 的适配,因为在显存这一块还有一些问题需要解决。
考虑到电脑配置不是很高的小伙伴,作者还贴心地提供了云端一键部署的功能。对于那些不想折腾本地环境的人来说,这个功能简直是福音。感兴趣的朋友可以去 B 站搜索“嘟嘟实验室”,那儿不仅有语音整合包,还有很多其他有趣的整合包供你探索。