VoxCPM 是由 面壁智能 × 清华大学 联合研发的一款新一代 文本转语音(TTS)模型。
简单来说,就是把一段文字,直接变成自然、接近真人的声音——无论是小说、旁白、台词,还是讲解稿,都能一键生成音频。
它最大的特点是 “无分词器”架构。
传统 TTS 往往需要先把句子拆成一个个字或词再合成,比如:
「我爱吃苹果」→「我 / 爱 / 吃 / 苹果」
这种方式容易导致语气生硬、停顿不自然,听起来像“拼出来的声音”。
而 VoxCPM 不需要分词,它是直接基于整句语境进行建模和生成,能同时理解上下文关系、情绪走向和语义重心,因此在语调、重音、停顿和连贯性上都更加自然,明显减少“机器感”和“断句感”。
一句话总结:
👉 VoxCPM 更像是在“理解你在说什么”,再把它“读出来”,而不是把字一个个念出来。
第一步:彻底删除旧环境(有安装过VoxCpm模型执行)
请关闭所有正在运行的 Python 程序,打开终端(Anaconda Prompt 或 PowerShell):
# 1. 退出当前环境
conda deactivate
# 2. 删除整个环境(包括里面所有的包)
conda remove -n voxcpm --all -y
# 3. 清理缓存(防止下次安装时用到坏的缓存包)
conda clean --all -y
第二步:创建纯净的新环境
# 1. 创建新环境(指定 Python 3.10,最稳定)
conda create -n voxcpm python=3.10 -y
# 2. 激活环境
conda activate voxcpm
第三步:手动安装 GPU 版 PyTorch (最关键!)
不要直接运行 pip install voxcpm,否则它又会给你装上 CPU 版。 我们需要先“占位”,把正确的 GPU 版装好。
复制下面这行命令运行(下载量约 2.5GB,请耐心等待):pytorch.org/get-started…
pip install torch==2.9.1 torchvision==0.24.1 torchaudio==2.9.1 --index-url https://download.pytorch.org/whl/cu128
第四步:安装 VoxCPM 和 TorchCodec
# 1. 安装主程序
pip install voxcpm
# 2. 安装解码器库
pip install torchcodec
第五步:搞定 FFmpeg (手动挂载法)
因为 Windows Conda 安装 FFmpeg 容易报错,我们采用手动下载 + 代码挂载的方案。
- 下载: 点击下载:ffmpeg-7.1-full_build-shared.7z(一定要带 shared 字样!只有它才有 DLL 文件)
- 解压: 解压到
D:\FFmpeg。确保你能看到D:\FFmpeg\bin里面有很多.dll文件。
修改代码: 打开 D:\python\VoxCPM-main\app.py,把原来的内容全部清空(或者在最最前面插入),确保文件前几行是这样的:
import os
# ⚠️ 这里一定要改成你刚刚下载并解压的那个 shared 版本的 bin 路径!
# 必须能在这个文件夹里看到 .dll 文件才行!
ffmpeg_bin_path = r"D:\FFmpeg_Shared\bin"
os.environ["PATH"] = ffmpeg_bin_path + os.pathsep + os.environ["PATH"]
if hasattr(os, 'add_dll_directory'):
try:
os.add_dll_directory(ffmpeg_bin_path)
print("✅ 成功!已强制挂载 FFmpeg 动态库")
except Exception as e:
print(f"❌ 挂载失败: {e}")
# ... 下面才是原来的 import torch ...