即时克隆!NeuTTS-Air 引领语音生成新路径

201 阅读2分钟

在语音生成领域,TTS(Text-to-Speech)模型的精度和效率一直是难题。传统模型通常需要数小时训练、占用大量显存,并且在克隆个性化声音时往往牺牲音质。NeuTTS-Air 的出现则打破了这一瓶颈,它通过轻量化网络结构与高效神经声码器(NeuCodec)设计,实现了在普通设备上的高保真语音克隆。
NeuTTS-Air 是 Neuphonic 公司于 2025 年 10 月发布的一款专为设备端语音生成(on-device TTS)设计的模型,系统基于 0.5B 参数 Qwen LLM 主干,融合 NeuCodec 音频编解码器,具备少样本语音学习能力,可在仅 3 秒参考音频的条件下克隆说话人音色,并实时生成自然语音。
在性能评估中,NeuTTS-Air 在开源模型中达到了 SOTA(State of the Art)水平,尤其在超真实语音合成和实时推理指标上表现突出。
NeuTTS-Air 在设计之初即强调「开放、透明与责任」,模型同时兼容 GGML / ONNX 推理后端,便于在不同算力平台上优化部署,同时生成音频内嵌 Perth 数字水印机制,确保输出结果的可追踪性与合规安全。
换句话说,NeuTTS-Air 并不是又一个「云端 TTS 模型」,而是一套能在本地完成语音克隆的端侧解决方案——让「 让 AI 说出你的声音」真正变成一件私有、即时、可控的事。

教程链接: go.openbayes.com/JFCL9

使用云平台: OpenBayes

openbayes.com/console/sig…

首先点击「公共教程」,找到「NeuTTS-Air: 轻量高效语音克隆模型」,单击打开。

image.png 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

image.png 在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

image.png

image.png

数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入模型界面。

image.png 若显示「Bad Gateway」,这表示代码正在后台执行,请等待约 2-3 分钟后刷新页面。
使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

image.png 以下是一个使用示例:

image.png