智谱GLM-TTS开源:给AI装上顶级声优的嗓子

114 阅读4分钟

今天智谱开源这个东西,对于像我们这样搞内容创作、做AI产品的人来说,绝对是个炸裂的福利。

一直以来,高质量的语音合成(TTS)要么贵(大厂API),要么难(开源模型效果机械、部署复杂)。今天,智谱直接把GLM-TTS正式上线并开源,且商用友好(Apache 2.0协议)。

不废话,直接来看看是个什么东西,以及为什么我说它可能是目前开源界最懂戏的声音模型。

1. 3秒就能复刻

以前克隆一个声音,我们可能需要录几十句话,甚至半小时。GLM-TTS只需要3秒。这不是简单的拼凑,它是真的瞬间学会了你的音色。

cb1d3ae4325d40a38ad97cc8998bf9ca.jpg最重要的是,它不仅是读字,它是在表演。

很多开源模型读起文章来像没有感情的杀手,但GLM-TTS能根据上下文,自动匹配开心、悲伤、愤怒的情绪。它甚至能模拟真人的呼吸感、停顿和笑声,让声音听起来有血有肉。

2. 为什么它听起来这么像人?

结合智谱同步发布的技术报告,我挖到了它背后的三个黑科技,正是这些让它跟普通模型拉开了差距:

  • 魔鬼训练(GRPO强化学习)

这就好比送AI去上了中央戏剧学院。智谱引入了一种叫GRPO的强化学习机制。传统的模型只要字音读对就给分,GLM-TTS是演得像才给分。

所以在情感表达和副语言(比如笑声、叹气)上,它在开源界拿到了SOTA(目前最佳)的成绩。它不再是读稿机器,而是有情绪的表达者。

  • 低成本定制(LoRA微调)

这对开发者极度友好。以前想训练一个专属的高质量IP音色,算力成本很高。

技术报告显示,GLM-TTS只需要调整模型里15%的参数,喂给它1小时的数据,就能训练出一个工业级的专属音色。这意味着,我们想给自己的数字人、客服机器人定制独一无二的声音,成本极低,速度极快。

  • 专治没文化乱读(Phoneme-in技术)

做过视频的朋友都知道,AI最怕多音字(银行读成银行为)。

GLM-TTS支持混合输入,不管是多音字、生僻字,还是复杂的数学公式,你都可以强制指定发音。做教育课件、读古诗、讲专业术语,它都能拿捏得死死的,大大减少了后期修音的工作量。

3. 这对我们意味着什么?

作为内容创作者或开发者,GLM-TTS的开源意味着我们可以:

**1. 零成本搭建内容矩阵:**做短视频口播,不再依赖千篇一律的剪映女声,3秒生成各种风格的旁白,辨识度拉满。

**2. 打造更逼真的数字人:**结合之前开源的GLM-4-Voice,现在的数字人不仅能看,还能带着情绪跟你吵架、聊天,沉浸感直接上一个台阶。

**3. 工业级落地:**只有10W小时的训练数据,单机4天就能预训练完,这对中小厂的算力非常友好,二开难度大大降低。

写在最后

智谱这次开源,属于是把听感和控制力做到了平衡。它不仅解决能不能说的问题,更解决了说得像不像人的问题。

对于想做出海视频、数字人IP、或者智能客服的朋友,赶紧去Hugging Face下载权重试试吧。

你的时间,只该用于思考。剩下的,交给AI。

开源地址 (Apache 2.0协议): 

API接入与开发文档:

在线体验:

  • 网页版👉audio.z.ai

  • APP端👉智谱清言

如果你也对AI感兴趣,想拥抱AI,不妨可以来看看我们的AI超级个体知识库👇 免费的!

二维码

AI超级个体知识库

hyperspace.feishu.cn/wiki/SpRGwQ…