面壁智能开源了支持音色设计、克隆、30语言+9 种方言的语音大模型面壁和清华团队又开源了个狠的。继去年接连开源 Vox

面壁和清华团队又开源了个狠的。

继去年接连开源 VoxCPM 和 VoxCPM 1.5 之后。

面壁智能联合清华大学人机语音交互实验室，这次直接把参数量拉到了 2B，推出了新一代语音大模型 VoxCPM 2。

目前 X 上在热烈讨论。

简单说：一个开源、免费、功能齐全的语音生成模型，配套工具箱也给你备齐了。

30 种语言、9 种中国方言、能凭空用文字创造声音、能克隆你的声音、48kHz 高保真音质。

而且是一个模型聚集多种功能，效果好且全。

01、VoxCPM 2 是什么

VoxCPM 是面壁智能开源的语音大模型系列，从去年 9 月开始迭代，每次升级都很实在：

VoxCPM 1（2025.09）： 0.5B 参数，16kHz 采样率，中英双语 + 方言，3 秒参考音频克隆
VoxCPM 1.5（2025.12） ：0.8B 参数，44.1kHz 采样率，HuggingFace 下载量 5.5k+
VoxCPM 2（2026.04） ：2B 参数，48kHz 采样率，30 种全球语言 + 8 种中国方言

从 0.5B 到 2B，从 16kHz 到 48kHz，从中英双语到 38 种语言，每一代都在实打实地升级。

到了 VoxCPM 2 这一代，基本上把开源语音模型能做的事情全做了。

体验链接：https://voxcpm.modelbest.cn/
开源链接：https://github.com/OpenBMB/VoxCPM/
Hugging Face链接：https://huggingface.openbmb.com/model/openbmb/VoxCPM2

02、四大核心亮点

亮点一：30 种语言 + 9 种方言，一个模型走遍全球

VoxCPM 2 支持的语言覆盖面非常广。

VoxCPM 2 支持 30 种全球主流语言， 中英日韩法德俄阿拉伯语这些不用说了。

重点是还覆盖了东南亚八国语种：越南语、泰语、印尼语、老挝语、缅甸语、柬埔寨语、菲律宾语、马来西亚语。

这个覆盖范围对出海企业来说太友好了，有人直接叫它东南亚版 ElevenLabs。

国内这边也没落下，9 种方言全部安排上：四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语。

说到方言这里多提一句，用的时候有个小技巧：你输入的文本得是方言本身的表达方式，不能拿普通话文本让它强行读出方言味道。

亮点二：音色设计-不用选声音，直接造声音

这个功能是 VoxCPM 2 最让人兴奋的能力之一。

市面上大多数语音模型只能对固定音色做情感或风格控制，说白了就是给你几个预设音色，你在这几个里面挑。

VoxCPM 2 不一样，你可以直接用文字描述来创造一个全新的、之前根本不存在的声音。

然后再用这个声音去朗读任何文本，还能精确控制情感和风格。

操作也很简单，在控制指令里用自然语言描述你想要的声音就行，不需要任何特殊格式。

几个描述词的例子感受一下：

基础风格："年轻女性，温柔甜美"

质感风格："浑厚低沉的口音男声，语速慢，带着从容"

画面感风格："听着像个活泼的小姐姐在耳边轻快地说话，语速很快但声音很轻柔，俏皮的警告听起来一点也不凶，反而让人觉得很亲切"

因为大模型的生成特性，即便是相同的指令，每次生成的音色细节也会有微妙的随机变化，相当于每次都在给你匹配不同的 AI 声优。

这个能力打开的想象空间非常大，做游戏角色配音、做动画、做有声书，不再受限于固定的音色库了。

亮点三：克隆你的声音，还能复刻情感

音色克隆这个功能很多模型都有，但 VoxCPM 2 在这块做得更深。

它基于扩散自回归连续表征方法，相比传统的 Token-based 方法，能保留更多原始声音的声学信息和情感细节，信息损失更少。

最终效果就是克隆出来的声音相似度更高，真正做到声临其境。

上传或录制一段音频，建议 5 秒以上，素材越充足效果越好，AI 就能提取并复制这个音色，用它念出你指定的任意文本。

更有意思的是，克隆不仅仅是复制。

你还可以在控制指令里加入辅助提示来改变原有声音的情绪和语速。

比如上传了一段日常说话的录音，你可以加一句"语速很快，清亮饱满"，AI 就会保留原音色，但以你想要的语气来播报。

不过有一点要注意：音色克隆没法跨性别转换，用男声的参考音频让 AI 变成女声，大概率是不行的。

这个功能主要用来调整原声音的情绪、语速和演绎风格。

亮点四：48kHz 高保真，配音级表现力

VoxCPM 2 的采样率达到了 48000Hz， 这是什么概念？

目前市面上主流的语音 AI 一般是 24000Hz，VoxCPM 2 直接翻倍，达到了高保真音频标准，也就是 CD 音质级别。

更高的采样率意味着能捕捉并还原声音的每一个细腻细节，告别传统 TTS 那种一听就知道是机器生成的感觉。

生成的语音在自然度、情感表达和韵律上达到了配音级别，可以直接用在影视配音、游戏、动画、有声书这些对声音表现力要求很高的专业场景里。

速度方面也不拉胯。

在 RTX 4090 上，RTF 指标为 0.13，也就是生成 10 秒钟的音频只需要 1.3 秒，处理速度是实时速度的 7.7 倍。

03、VoxCPM 2 的优势在哪

TTS 这个领域现在各家的基础能力都不差，差异主要体现在特色功能和技术路线上。

简单过一下 VoxCPM 2 的定位：

和 Index-TTS 相比，VoxCPM 2 在多语种能力上要强很多， 30 种语言加 9 种方言的覆盖面摆在那里。

和 Qwen3-TTS 相比，VoxCPM 2 在音色克隆的真实性和任意音色可控上更有优势。

而且 VoxCPM 2 一个模型就聚合了多种功能，Qwen3-TTS 要实现同样的功能组合需要三个模型叠加。

技术路线上，VoxCPM 2 采用的扩散自回归连续表征方法在信息保留上天然优于 Token-based 方法，音色克隆更真实，声音细节表现的上限更高。

和 VibeVoice 相比，VoxCPM 2 在单人音色生成和多场景适配上做得更深入，尤其是视频配音这块。

和闭源模型比就更简单了：VoxCPM 2 开源、免费。

开发者这块面壁也把工具链准备好了：原生 Torch 推理、LoRA 和全参数微调、VoxCPM-NanoVLLM 高吞吐部署、ComfyUI 和 WebUI 扩展、ONNX 导出支持 CPU 快速推理，甚至还有 Rust 语言重构版本。

从一键上手到大规模部署都覆盖了。

体验链接：https://voxcpm.modelbest.cn/
GitHub开源链接：https://github.com/OpenBMB/VoxCPM/
Hugging Face链接：https://huggingface.openbmb.com/model/openbmb/VoxCPM2