面壁和清华团队又开源了个狠的。
继去年接连开源 VoxCPM 和 VoxCPM 1.5 之后。
面壁智能联合清华大学人机语音交互实验室,这次直接把参数量拉到了 2B,推出了新一代语音大模型 VoxCPM 2。
目前 X 上在热烈讨论。
简单说:一个开源、免费、功能齐全的语音生成模型,配套工具箱也给你备齐了。
30 种语言、9 种中国方言、能凭空用文字创造声音、能克隆你的声音、48kHz 高保真音质。
而且是一个模型聚集多种功能,效果好且全。
01、VoxCPM 2 是什么
VoxCPM 是面壁智能开源的语音大模型系列,从去年 9 月开始迭代,每次升级都很实在:
- VoxCPM 1(2025.09): 0.5B 参数,16kHz 采样率,中英双语 + 方言,3 秒参考音频克隆
- VoxCPM 1.5(2025.12) :0.8B 参数,44.1kHz 采样率,HuggingFace 下载量 5.5k+
- VoxCPM 2(2026.04) :2B 参数,48kHz 采样率,30 种全球语言 + 8 种中国方言
从 0.5B 到 2B,从 16kHz 到 48kHz,从中英双语到 38 种语言,每一代都在实打实地升级。
到了 VoxCPM 2 这一代,基本上把开源语音模型能做的事情全做了。
体验链接:https://voxcpm.modelbest.cn/
开源链接:https://github.com/OpenBMB/VoxCPM/
Hugging Face链接:https://huggingface.openbmb.com/model/openbmb/VoxCPM2
02、四大核心亮点
亮点一:30 种语言 + 9 种方言,一个模型走遍全球
VoxCPM 2 支持的语言覆盖面非常广。
VoxCPM 2 支持 30 种全球主流语言, 中英日韩法德俄阿拉伯语这些不用说了。
重点是还覆盖了东南亚八国语种:越南语、泰语、印尼语、老挝语、缅甸语、柬埔寨语、菲律宾语、马来西亚语。
这个覆盖范围对出海企业来说太友好了,有人直接叫它东南亚版 ElevenLabs。
国内这边也没落下,9 种方言全部安排上:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语。
说到方言这里多提一句,用的时候有个小技巧:你输入的文本得是方言本身的表达方式,不能拿普通话文本让它强行读出方言味道。
亮点二:音色设计-不用选声音,直接造声音
这个功能是 VoxCPM 2 最让人兴奋的能力之一。
市面上大多数语音模型只能对固定音色做情感或风格控制,说白了就是给你几个预设音色,你在这几个里面挑。
VoxCPM 2 不一样,你可以直接用文字描述来创造一个全新的、之前根本不存在的声音。
然后再用这个声音去朗读任何文本,还能精确控制情感和风格。
操作也很简单,在控制指令里用自然语言描述你想要的声音就行,不需要任何特殊格式。
几个描述词的例子感受一下:
基础风格:"年轻女性,温柔甜美"
质感风格:"浑厚低沉的口音男声,语速慢,带着从容"
画面感风格:"听着像个活泼的小姐姐在耳边轻快地说话,语速很快但声音很轻柔,俏皮的警告听起来一点也不凶,反而让人觉得很亲切"
因为大模型的生成特性,即便是相同的指令,每次生成的音色细节也会有微妙的随机变化,相当于每次都在给你匹配不同的 AI 声优。
这个能力打开的想象空间非常大,做游戏角色配音、做动画、做有声书,不再受限于固定的音色库了。
亮点三:克隆你的声音,还能复刻情感
音色克隆这个功能很多模型都有,但 VoxCPM 2 在这块做得更深。
它基于扩散自回归连续表征方法,相比传统的 Token-based 方法,能保留更多原始声音的声学信息和情感细节,信息损失更少。
最终效果就是克隆出来的声音相似度更高,真正做到声临其境。
上传或录制一段音频,建议 5 秒以上,素材越充足效果越好,AI 就能提取并复制这个音色,用它念出你指定的任意文本。
更有意思的是,克隆不仅仅是复制。
你还可以在控制指令里加入辅助提示来改变原有声音的情绪和语速。
比如上传了一段日常说话的录音,你可以加一句"语速很快,清亮饱满",AI 就会保留原音色,但以你想要的语气来播报。
不过有一点要注意:音色克隆没法跨性别转换,用男声的参考音频让 AI 变成女声,大概率是不行的。
这个功能主要用来调整原声音的情绪、语速和演绎风格。
亮点四:48kHz 高保真,配音级表现力
VoxCPM 2 的采样率达到了 48000Hz, 这是什么概念?
目前市面上主流的语音 AI 一般是 24000Hz,VoxCPM 2 直接翻倍,达到了高保真音频标准,也就是 CD 音质级别。
更高的采样率意味着能捕捉并还原声音的每一个细腻细节,告别传统 TTS 那种一听就知道是机器生成的感觉。
生成的语音在自然度、情感表达和韵律上达到了配音级别,可以直接用在影视配音、游戏、动画、有声书这些对声音表现力要求很高的专业场景里。
速度方面也不拉胯。
在 RTX 4090 上,RTF 指标为 0.13,也就是生成 10 秒钟的音频只需要 1.3 秒,处理速度是实时速度的 7.7 倍。
03、VoxCPM 2 的优势在哪
TTS 这个领域现在各家的基础能力都不差,差异主要体现在特色功能和技术路线上。
简单过一下 VoxCPM 2 的定位:
和 Index-TTS 相比,VoxCPM 2 在多语种能力上要强很多, 30 种语言加 9 种方言的覆盖面摆在那里。
和 Qwen3-TTS 相比,VoxCPM 2 在音色克隆的真实性和任意音色可控上更有优势。
而且 VoxCPM 2 一个模型就聚合了多种功能,Qwen3-TTS 要实现同样的功能组合需要三个模型叠加。
技术路线上,VoxCPM 2 采用的扩散自回归连续表征方法在信息保留上天然优于 Token-based 方法,音色克隆更真实,声音细节表现的上限更高。
和 VibeVoice 相比,VoxCPM 2 在单人音色生成和多场景适配上做得更深入,尤其是视频配音这块。
和闭源模型比就更简单了:VoxCPM 2 开源、免费。
开发者这块面壁也把工具链准备好了:原生 Torch 推理、LoRA 和全参数微调、VoxCPM-NanoVLLM 高吞吐部署、ComfyUI 和 WebUI 扩展、ONNX 导出支持 CPU 快速推理,甚至还有 Rust 语言重构版本。
从一键上手到大规模部署都覆盖了。
体验链接:https://voxcpm.modelbest.cn/
GitHub开源链接:https://github.com/OpenBMB/VoxCPM/
Hugging Face链接:https://huggingface.openbmb.com/model/openbmb/VoxCPM2