智谱GLM-TTS开源：给AI装上顶级声优的嗓子今天智谱开源这个东西，对于像我们这样搞内容创作、做AI产品的人来说，绝对

今天智谱开源这个东西，对于像我们这样搞内容创作、做AI产品的人来说，绝对是个炸裂的福利。

一直以来，高质量的语音合成（TTS）要么贵（大厂API），要么难（开源模型效果机械、部署复杂）。今天，智谱直接把GLM-TTS正式上线并开源，且商用友好（Apache 2.0协议）。

不废话，直接来看看是个什么东西，以及为什么我说它可能是目前开源界最懂戏的声音模型。

1. 3秒就能复刻

以前克隆一个声音，我们可能需要录几十句话，甚至半小时。GLM-TTS只需要3秒。这不是简单的拼凑，它是真的瞬间学会了你的音色。

最重要的是，它不仅是读字，它是在表演。

很多开源模型读起文章来像没有感情的杀手，但GLM-TTS能根据上下文，自动匹配开心、悲伤、愤怒的情绪。它甚至能模拟真人的呼吸感、停顿和笑声，让声音听起来有血有肉。

结合智谱同步发布的技术报告，我挖到了它背后的三个黑科技，正是这些让它跟普通模型拉开了差距：

这就好比送AI去上了中央戏剧学院。智谱引入了一种叫GRPO的强化学习机制。传统的模型只要字音读对就给分，GLM-TTS是演得像才给分。

所以在情感表达和副语言（比如笑声、叹气）上，它在开源界拿到了SOTA（目前最佳）的成绩。它不再是读稿机器，而是有情绪的表达者。

这对开发者极度友好。以前想训练一个专属的高质量IP音色，算力成本很高。

技术报告显示，GLM-TTS只需要调整模型里15%的参数，喂给它1小时的数据，就能训练出一个工业级的专属音色。这意味着，我们想给自己的数字人、客服机器人定制独一无二的声音，成本极低，速度极快。

做过视频的朋友都知道，AI最怕多音字（银行读成银行为）。

GLM-TTS支持混合输入，不管是多音字、生僻字，还是复杂的数学公式，你都可以强制指定发音。做教育课件、读古诗、讲专业术语，它都能拿捏得死死的，大大减少了后期修音的工作量。

作为内容创作者或开发者，GLM-TTS的开源意味着我们可以：

**1. 零成本搭建内容矩阵：**做短视频口播，不再依赖千篇一律的剪映女声，3秒生成各种风格的旁白，辨识度拉满。

**2. 打造更逼真的数字人：**结合之前开源的GLM-4-Voice，现在的数字人不仅能看，还能带着情绪跟你吵架、聊天，沉浸感直接上一个台阶。

**3. 工业级落地：**只有10W小时的训练数据，单机4天就能预训练完，这对中小厂的算力非常友好，二开难度大大降低。

智谱这次开源，属于是把听感和控制力做到了平衡。它不仅解决能不能说的问题，更解决了说得像不像人的问题。

对于想做出海视频、数字人IP、或者智能客服的朋友，赶紧去Hugging Face下载权重试试吧。

你的时间，只该用于思考。剩下的，交给AI。

开源地址 (Apache 2.0协议)：

API接入与开发文档：

在线体验：

如果你也对AI感兴趣，想拥抱AI，不妨可以来看看我们的AI超级个体知识库👇 免费的！

二维码

AI超级个体知识库