你脑子里有没有一个声音?沙哑的老者。带东北口音的新闻主播。温柔到让人犯困的 ASMR 女声。
现在,把这句话打出来, AI 就能直接生成那个声音。
不是录一段参考音频。不是调参数。是用文字"画"出声音。
清华团队刚刚开源的 VoxCPM2 做到了这件事,而且做得相当好。
大部分 TTS 的工作方式,本质上是"先把声音变成马赛克再还原"
解释一下为什么这件事值得单独写一篇。
主流的语音合成系统,工作流程基本是这样的:把一段语音先拆成离散的 token (你可以理解为声音的"像素块"),然后让模型预测这些 token 的排列,最后再通过声码器还原成波形。
每一步都有信息损失。
就像你把一张高清照片先压成 16 色位图,再试图还原成高清——马赛克去不掉了。这是个死胡同。 你堆再多参数,分词器那边漏掉的信息永远补不回来。
这个问题困扰了 TTS 领域很多年。音质上不去,很多时候不是模型不够大,而是分词器把信息截断了。说白了,传统方案从第一步就输了。
VoxCPM2 的做法——说真的,看到的时候我觉得这个思路太干净了——直接跳过离散分词器,在连续空间里端到端建模。
语义-声学联合建模,扩散目标函数, 48kHz 直出。
没有中间的信息损失环节。英文词错误率压到 1.84%,中文字错误率 0.97%。
这是什么概念?目前公开的 TTS 模型里,这个精度几乎是最顶级的。
三个能力,每一个单独拎出来都能撑起一个产品
1. 文本描述创声:不用任何参考音频
这是最让我觉得"格局打开"的能力。
你写一段自然语言描述——比如"一个四十岁左右、略带疲惫感、说话时偶尔会停顿的男声"——VoxCPM2 直接生成。
不需要录任何样本。
有声书行业现在的做法是:找配音演员 → 录音 → 后期处理 → 反复修改。如果 VoxCPM2 的效果稳定,这个流程能被压缩到几分钟。
游戏角色配音、品牌广告旁白、虚拟主播……每一个场景都是降维打击。
2. 可控声音克隆:不是复制,是拿到声音的"可编辑版本"
声音克隆不新鲜。但大部分克隆模型做的是"复读机"——你给一段样本,它模仿那个声音读新文本。听起来像,但死板。 像个没有感情的朗读机器。
VoxCPM2 做的是更高级的事:克隆之后,你可以独立操控情感、语速、表达方式。
同一个声音,你可以让它愤怒、平静、紧张、慵懒。这不是复制粘贴,是拿到了声音的"底层参数"然后重新调。
建筑行业有个术语叫"参数化设计"——你定义规则和约束,建筑自动生成。 VoxCPM2 对声音做的就是这件事。你定义声线,然后在情感、语速、语气的参数空间里自由组合。
3. 30 种语言 + 9 种中文方言
粤语、四川话、吴语、东北话……
关键是——不需要标注语言标签。直接输入文本,模型自己判断该用什么语言读。
39 种语言方言,一个 2B 参数的模型。这件事本身就很说明问题:连续空间建模的泛化能力,远超离散 token 方案。
2B 参数, 8GB 显存, Apache-2.0 开源
看一下核心参数:
•模型大小: 2B 参数,基于 MiniCPM-4 骨架
•采样率: 48kHz 高保真
•推理速度: RTF 0.30 ( RTX 4090 ,即生成 1 秒语音只需 0.3 秒)
•显存需求:约 8GB VRAM
•论文:已被 ICLR 2026 接收
•License: Apache-2.0 ,可商用
8GB 显存就能本地跑。
这意味着什么?一张消费级显卡( RTX 4060 以上)就能部署一个效果顶级的 TTS 服务。不需要云端 API ,不需要企业级 GPU 集群。
对独立开发者和小团队来说,这个门槛低到几乎不存在。
GitHub 上已经 11.9k stars 。论文被 ICLR 2026 接收。开源协议 Apache-2.0 。
清华 THUNLP + ModelBest ( OpenBMB )这波操作,说实话,给整个开源社区打了个样。
真正的问题:配音行业会怎样?
我之前写过 AI Agent 部署的"70% 计划 vs 7% 落地"剪刀差。 TTS 这个领域可能反过来——技术层面已经跑到 90% 了,但行业应用可能连 10% 都没到。
VoxCPM2 把技术门槛砸到了地板上。
但配音行业会被颠覆吗?我不确定。
高端配音——那些靠独特音色和表演张力吃饭的人——短期内不会被替代。 AI 能生成"像"的声音,但"活着的表演"和"生成的音色"之间,还是有一道鸿沟。
中低端市场就不一样了。企业宣传片旁白、电子书朗读、客服语音……这些场景对"表演力"的要求本来就不高。如果 AI 能用 1% 的成本做到 80% 的效果,大部分甲方不会犹豫。 残酷但真实。
这个行业正在变成一个漏斗。上面窄、下面宽。
VoxCPM2 在最宽的地方砸了一锤。
你可以自己试试: HuggingFace Spaces 搜 VoxCPM-Demo ,或者本地 clone 下来跑。 GitHub 地址: github.com/OpenBMB/VoxCPM
写出你脑子里的那个声音。看看它到底能还原多少。
信息来源:
① OpenBMB/VoxCPM GitHub (11.9k stars)
② arXiv:2509.24650 (ICLR 2026)
③ HuggingFace: openbmb/VoxCPM2