Free CPU教程丨狂揽8.8k stars，TTS模型Supertonic-3参数规模仅约99M，支持31种语言

在生成式 AI 持续向多模态方向演进的背景下，TTS 正在从「云端能力」逐渐转向「本地能力」。过去，高质量 TTS 系统往往依赖大型模型、云端推理和复杂部署流程，这虽然能够提供自然的语音效果，却也带来了延迟、成本与隐私方面的问题。尤其是在移动设备、浏览器、边缘硬件等场景中，如何以更低资源消耗实现实时、高质量、多语言语音生成，正在成为行业关注的新方向。

今年 5 月，Supertone 团队开源了轻量级多语言文本转语音模型 Supertonic-3**，目前已在 GitHub 获得 8.8k stars。该模型基于 ONNX Runtime 构建，支持完全本地运行，无需调用云 API，也不依赖 GPU，即可在 CPU 环境中完成实时语音合成。

与当前许多参数规模达到数十亿级的开源 TTS 系统相比，Supertonic-3 的一个显著特点是「小而完整」。整个模型仅约 9900 万参数，却支持 31 种语言、10 种预设音色，并具备长文本分块、静音间隔控制以及表情标签等能力。例如，开发者可以通过、、等标签，为生成语音加入更自然的情绪与停顿效果，而无需额外参考音频或复杂提示工程。

官方表示，其推理速度足以在一秒内将整个网页转换为音频，同时直接输出 44.1kHz、16-bit 的高质量 WAV 文件，无需额外后处理即可播放。对于希望构建本地 AI 助手、离线阅读器、语音播报系统或多语言内容工具的开发者而言，这类「轻量化 + 多平台」的方案正在展现出越来越强的吸引力。

近日，HyperAI** 官网（hyper.ai）的教程版块上线了「Supertonic-3：轻量级本地多语言语音合成系统」，已经完成环境部署，基于 Free CPU 即可免费体验高质量 TTS 模型。

在线运行：

go.hyper.ai/Mr31r