封神级 TTS!VoxCPM2 凭连续表征,玩转多语言合成 + 创意音色 + 无损声纹克隆

3 阅读7分钟

VoxCPM2 是 OpenBMB(面壁智能)联合清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)等机构推出的开源 TTS(Text-to-Speech)模型,是 VoxCPM 系列的最新大版本。

VoxCPM 是一个无离散音频分词器(Tokenizer-Free)的语音合成系统,通过端到端的扩散自回归架构直接生成连续语音表征,绕过对音频的离散编码步骤,实现高度自然且富有表现力的语音合成。

VoxCPM2 是最新的版本 — 基于 MiniCPM-4 基座构建,总计 20亿 参数,在超过 200万小时 的多语种音频数据上训练,支持 30种全球语言+9种中文方言音色设计可控声音克隆,原生输出 48kHz 高质量音频。

ChatGPT Image 2026年5月2日 17_09_52.png

🎛️ 核心技术亮点:基于连续表征的 Tokenizer-Free 架构

传统 TTS 通常依赖​离散音频分词器​(Tokenizer),将语音编码成有限的 token 序列,这容易导致信息损失、表现力不足和音色细节丢失。

VoxCPM2 采用​端到端扩散自回归(Diffusion Autoregressive)架构​,直接在连续语音表征空间中建模和生成:

  • 架构流程​:LocEnc(局部编码器)→ TSLM(时序语言模型)→ RALM(参考注意力语言模型)→ LocDiT(局部扩散 Transformer)。
  • AudioVAE V2​:支持 16kHz 输入 → 48kHz 高保真输出。
  • 骨干模型​:基于 MiniCPM-4,​总参数量 2B​。
  • 训练数据​:超过 200 万小时 多语言语音数据。
  • LM Token Rate​:6.25 Hz,支持较长序列(最大 8192 tokens)。

这种连续表征方式保留了更多原始声学细节、情感、呼吸、韵律等信息,生成语音更自然、富有表现力,尤其在声音克隆和跨语言迁移上优势明显。

资源链接

✨ 核心特性

  • 🌍 30种语言语音合成 — 直接输入原始文本即可合成(支持语言详见下文),无需额外语言标签
  • 🎨 音色设计 — 用自然语言描述(性别、年龄、音色、情绪、语速……)凭空创建全新音色,无需参考音频
  • 🎛️ 可控声音克隆 — 从参考音频片段克隆任意声音,可叠加风格指令控制情绪、语速和表现力,同时保持原始音色
  • 🎙️ 极致克隆 — 提供参考音频及其文本内容,模型接着参考音频进行无缝续写,从而精准还原声音细节特征(与 VoxCPM1.5 一致)
  • 🔊 48kHz 高质量音频 — 输入 16kHz 参考音频,通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频,内置超分能力
  • 🧠 语境感知合成 — 根据文本内容自动推断合适的韵律和表现力
  • 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3,通过 Nano-vLLMvLLM-Omni(官方 vLLM 全模态服务,原生支持 VoxCPM2,提供 PagedAttention 与 OpenAI 兼容 API)加速后可达 ~0.13
  • 📜 完全开源,商用就绪 — 权重和代码基于 Apache-2.0 协议发布,免费商用
🌍 支持的语言(30种)
阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语

中国方言:四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话


📦 模型与版本

VoxCPM2VoxCPM1.5VoxCPM-0.5B
状态🟢 最新版本稳定版旧版
主模型参数量2B0.6B0.5B
音频采样率48kHz44.1kHz16kHz
LM处理码率6.25Hz6.25Hz12.5Hz
语言支持数量302(中文、英文)2(中文、英文)
克隆模式隔离参考音频(无需文本) & 音频续写仅音频续写仅音频续写
音色设计
可控声音克隆
SFT / LoRA
RTF (RTX 4090)~0.30~0.15~0.17
RTF Nano-VLLM (RTX 4090)~0.13~0.08~0.10
显存占用~8 GB~6 GB~5 GB
模型权重🤗 HF / MS🤗 HF / MS🤗 HF / MS
技术报告即将发布arXiv ICLR 2026
Demo 页面音频示例音频示例

VoxCPM2 采用连续音频表征、扩散自回归范式,模型在 AudioVAE 的连续隐空间中通过四阶段处理:LocEnc → TSLM → RALM → LocDiT,实现丰富的表现力语音合成和 48kHz 原生音频输出。

VoxCPM 模型架构


📊 性能评测

VoxCPM2 在公开的零样本和可控 TTS 基准测试中取得了 SOTA 或可比的结果。

Seed-TTS-eval

Seed-TTS-eval WER(⬇)&SIM(⬆) 结果(点击展开)
ModelParametersOpen-Sourcetest-ENtest-ZHtest-Hard
WER/%⬇SIM/%⬆CER/%⬇SIM/%⬆CER/%⬇SIM/%⬆
MegaTTS30.5B2.7977.11.5279.0--
DiTAR0.6B1.6973.51.0275.3--
CosyVoice30.5B2.0271.81.1678.06.0875.8
CosyVoice31.5B2.2272.01.1278.15.8375.8
Seed-TTS-2.2576.21.1279.67.5977.6
MiniMax-Speech-1.6569.20.8378.3--
F5-TTS0.3B2.0067.01.5376.08.6771.3
MaskGCT1B2.6271.72.2777.4--
CosyVoice0.3B4.2960.93.6372.311.7570.9
CosyVoice20.5B3.0965.91.3875.76.8372.4
SparkTTS0.5B3.1457.31.5466.0--
FireRedTTS0.5B3.8246.01.5163.517.4562.1
FireRedTTS-21.5B1.9566.51.1473.6--
Qwen2.5-Omni7B2.7263.21.7075.27.9774.7
Qwen3-Omni30B-A3B1.39-1.07---
OpenAudio-s1-mini0.5B1.9455.01.1868.523.3764.3
IndexTTS21.5B2.2370.61.0376.57.1275.5
VibeVoice1.5B3.0468.91.1674.4--
HiggsAudio-v23B2.4467.71.5074.055.0765.6
VoxCPM-0.5B0.6B1.8572.90.9377.28.8773.0
VoxCPM1.50.8B2.1271.41.1877.07.7473.1
MOSS-TTS1.8573.41.2078.8--
Qwen3-TTS1.7B1.2371.71.2277.06.7674.8
FishAudio S24B0.99-0.54-5.99-
LongCat-Audio-DiT3.5B1.5078.61.0981.86.0479.7
VoxCPM22B1.8475.30.9779.58.1375.3

CV3-eval

CV3-eval 多语言 WER/CER(⬇) 结果(点击展开)
Modelzhenhard-zhhard-enjakodeesfritru
CosyVoice24.086.3212.5811.969.1319.7-----
CosyVoice3-1.5B3.914.999.7710.557.575.696.434.4711.810.56.64
Fish Audio S22.652.439.104.403.962.762.222.006.262.042.78
VoxCPM23.655.008.558.485.965.694.773.809.854.255.21

MiniMax-Multilingual-Test

Minimax-MLS-test WER(⬇) 结果(点击展开)
LanguageMinimaxElevenLabsQwen3-TTSFishAudio S2VoxCPM2
Arabic1.6651.6663.50013.046
Cantonese34.11151.51330.67038.584
Chinese2.25216.0260.9280.7301.136
Czech3.8752.1082.84024.132
Dutch1.1430.8030.9900.913
English2.1642.3390.9341.6202.289
Finnish4.6662.9643.3302.632
French4.0995.2162.8583.0504.534
German1.9060.5721.2350.5500.679
Greek2.0160.9915.7402.844
Hindi6.9625.82714.64019.699
Indonesian1.2371.0591.4601.084
Italian1.5431.7430.9481.2701.563
Japanese3.51910.6463.8232.7604.628
Korean1.7471.8651.7551.1801.962
Polish1.4150.7661.2601.141
Portuguese1.8771.3311.5261.1401.938
Romanian2.8781.34710.74021.577
Russian4.2813.8783.2122.4003.634
Spanish1.0291.0841.1260.9101.438
Thai2.70173.9364.2302.961
Turkish1.520.6990.8700.817
Ukrainian1.0820.9972.3006.316
Vietnamese0.8873.4157.4103.307
Minimax-MLS-test SIM(⬆) 结果(点击展开)
LanguageMinimaxElevenLabsQwen3-TTSFishAudio S2VoxCPM2
Arabic73.670.675.079.1
Cantonese77.867.080.583.5
Chinese78.067.779.981.682.5
Czech79.668.579.878.3
Dutch73.868.073.080.8
English75.661.377.579.785.4
Finnish83.575.981.989.0
French62.853.562.869.873.5
German73.361.477.576.780.3
Greek82.673.379.586.0
Hindi81.873.082.185.6
Indonesian72.966.076.380.0
Italian69.957.981.774.778.0
Japanese77.673.878.879.682.8
Korean77.670.079.981.783.3
Polish80.272.981.988.4
Portuguese80.571.181.778.183.7
Romanian80.969.973.379.7
Russian76.167.679.279.081.1
Spanish76.261.581.477.683.1
Thai80.058.878.684.0
Turkish77.959.683.587.1
Ukrainian73.064.774.779.8
Vietnamese74.336.974.080.6

Internal 30-Language ASR Benchmark

我们额外进行了内部多语言可懂度评测:30 语种 × 500 样本,ASR 转写评估使用 Gemini 3.1 Flash Lite API

内部30语种评测集ASR结果(点击展开)
语言指标VoxCPM2Fish S2-Pro
ar (阿拉伯语)CER1.23%0.30%
da (丹麦语)WER2.70%3.52%
de (德语)WER0.96%0.64%
el (希腊语)WER3.17%4.61%
en (英语)WER0.42%1.03%
es (西班牙语)WER1.33%0.64%
fi (芬兰语)WER2.24%2.80%
fr (法语)WER2.16%2.34%
he (希伯来语)CER2.98%15.27%
hi (印地语)CER0.79%0.91%
id (印尼语)WER1.36%1.68%
it (意大利语)WER1.65%1.08%
ja (日语)CER2.40%1.82%
km (高棉语)CER2.05%75.15%
ko (韩语)CER0.95%0.29%
lo (老挝语)CER1.90%87.40%
ms (马来语)WER1.75%1.41%
my (缅甸语)CER1.42%85.27%
nl (荷兰语)WER1.25%1.68%
no (挪威语)WER2.49%3.76%
pl (波兰语)WER1.90%1.65%
pt (葡萄牙语)WER1.48%1.49%
ru (俄语)WER0.90%0.86%
sv (瑞典语)WER2.22%2.63%
sw (斯瓦希里语)CER1.07%2.02%
th (泰语)CER0.94%1.92%
tl (菲律宾语)WER2.63%4.00%
tr (土耳其语)WER1.65%1.65%
vi (越南语)WER1.56%5.56%
zh (中文)CER0.92%1.02%
平均(30 语种)1.68%-

InstructTTSEval

指令驱动音色设计结果 (点击展开)
ModelInstructTTSEval-ZHInstructTTSEval-EN
APS⬆DSD⬆RP⬆APS⬆DSD⬆RP⬆
Hume83.075.354.3
VoxInstruct47.552.342.654.957.039.3
Parler-tts-mini63.448.728.6
Parler-tts-large60.045.931.2
PromptTTS64.347.231.4
PromptStyle57.446.430.9
VoiceSculptor75.764.761.5
Mimo-Audio-7B-Instruct75.774.361.580.677.659.5
Qwen3TTS-12Hz-1.7B-VD85.281.165.182.982.468.4
VoxCPM285.271.560.884.283.271.4

⚙️ 微调

VoxCPM 支持全参数微调(SFT)LoRA 微调。仅需 5-10分钟 的音频数据,即可适配特定说话人、语言或领域。

# LoRA 微调(参数高效,推荐)
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_lora.yaml

# 全参数微调
python scripts/train_voxcpm_finetune.py \
    --config_path conf/voxcpm_v2/voxcpm_finetune_all.yaml

# WebUI 训练与推理
python lora_ft_webui.py   # 然后打开 http://localhost:7860

完整指南 → 微调文档(数据准备、配置、训练、LoRA 热切换、常见问题)


📚 文档

完整文档:voxcpm.readthedocs.io

主题链接
快速开始与安装快速开始
使用指南与 Cookbook使用指南
VoxCPM 系列模型模型列表
微调(SFT & LoRA)微调指南
常见问题FAQ

🌟 生态与社区

项目说明
Nano-vLLM高吞吐快速 GPU 推理引擎
vLLM-Omni官方 vLLM 全模态服务(原生支持 VoxCPM2)— PagedAttention、OpenAI 兼容 API
VoxCPM.cppGGML/GGUF:CPU、CUDA、Vulkan 推理
VoxCPM-ONNXONNX 导出,支持 CPU 推理
VoxCPMANEApple Neural Engine 后端
voxcpm_rsRust 重新实现
ComfyUI-VoxCPMComfyUI 节点工作流
ComfyUI_RH_VoxCPM面向 VoxCPM 2 的功能更完整的 ComfyUI 工作流,支持多说话人、LoRA 和自动 ASR
ComfyUI-VoxCPMTTSComfyUI TTS 扩展
TTS WebUI浏览器端 TTS 扩展

完整生态见文档。社区项目非 OpenBMB 官方维护。