Free CPU教程丨狂揽8.8k stars,TTS模型Supertonic-3参数规模仅约99M,支持31种语言

0 阅读3分钟

在生成式 AI 持续向多模态方向演进的背景下,TTS 正在从「云端能力」逐渐转向「本地能力」。过去,高质量 TTS 系统往往依赖大型模型、云端推理和复杂部署流程,这虽然能够提供自然的语音效果,却也带来了延迟、成本与隐私方面的问题。尤其是在移动设备、浏览器、边缘硬件等场景中,如何以更低资源消耗实现实时、高质量、多语言语音生成,正在成为行业关注的新方向。

今年 5 月,Supertone 团队开源了轻量级多语言文本转语音模型 Supertonic-3**,目前已在 GitHub 获得 8.8k stars。该模型基于 ONNX Runtime 构建,支持完全本地运行,无需调用云 API,也不依赖 GPU,即可在 CPU 环境中完成实时语音合成。

与当前许多参数规模达到数十亿级的开源 TTS 系统相比,Supertonic-3 的一个显著特点是「小而完整」。整个模型仅约 9900 万参数,却支持 31 种语言、10 种预设音色,并具备长文本分块、静音间隔控制以及表情标签等能力。例如,开发者可以通过 、、 等标签,为生成语音加入更自然的情绪与停顿效果,而无需额外参考音频或复杂提示工程。

官方表示,其推理速度足以在一秒内将整个网页转换为音频,同时直接输出 44.1kHz、16-bit 的高质量 WAV 文件,无需额外后处理即可播放。对于希望构建本地 AI 助手、离线阅读器、语音播报系统或多语言内容工具的开发者而言,这类「轻量化 + 多平台」的方案正在展现出越来越强的吸引力。

近日,HyperAI** 官网(hyper.ai)的教程版块上线了「Supertonic-3:轻量级本地多语言语音合成系统」,已经完成环境部署,基于 Free CPU 即可免费体验高质量 TTS 模型。

在线运行:

go.hyper.ai/Mr31r

图片

Demo 示例

更多在线教程:

hyper.ai/notebooks

欢迎登录官网查看更多内容:

hyper.ai/

Demo 运行

1.进入 hyper.ai 首页后,选择「教程」页面,或点击「查看更多教程」,选择「Supertonic-3:轻量级本地多语言语音合成系统」,点击「运行此教程」。

图片

图片

2.页面跳转后,点击右上角「Clone」,将该教程克隆至自己的容器中。

注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

图片

3.选择「Free CPU」以及「PyTorch」镜像,点击「Continue job execution(继续执行)」。

HyperAI 为新用户准备了注册福利,仅需 1,即可获得20小时RTX5090算力(原价1,即可获得 20 小时 RTX 5090 算力(原价 7),资源永久有效。

图片

图片

4.等待分配资源,当状态变为「Running(运行中)」后,点击「Open Workspace」进入 Jupyter Workspace。

图片

效果展示

1.页面跳转后,点击左侧 README 文件,进入后点击上方 Run(运行)。

图片

图片

2.待运行完成后,即可点击右侧 API 地址跳转至 demo 页面。

图片