免费声音克隆来了！清华大学联合研发 VoxCPM，真人级 TTS 震撼上线VoxCPM 是由面壁智能 × 清华大学联

VoxCPM 是由 面壁智能 × 清华大学 联合研发的一款新一代 文本转语音（TTS）模型。
简单来说，就是把一段文字，直接变成自然、接近真人的声音——无论是小说、旁白、台词，还是讲解稿，都能一键生成音频。

它最大的特点是 “无分词器”架构。
传统 TTS 往往需要先把句子拆成一个个字或词再合成，比如：

「我爱吃苹果」→「我 / 爱 / 吃 / 苹果」

这种方式容易导致语气生硬、停顿不自然，听起来像“拼出来的声音”。

而 VoxCPM 不需要分词，它是直接基于整句语境进行建模和生成，能同时理解上下文关系、情绪走向和语义重心，因此在语调、重音、停顿和连贯性上都更加自然，明显减少“机器感”和“断句感”。

一句话总结：
👉 VoxCPM 更像是在“理解你在说什么”，再把它“读出来”，而不是把字一个个念出来。

仓库地址：github.com/OpenBMB/Vox…

第一步：彻底删除旧环境(有安装过VoxCpm模型执行)

请关闭所有正在运行的 Python 程序，打开终端（Anaconda Prompt 或 PowerShell）：

# 1. 退出当前环境
conda deactivate

# 2. 删除整个环境（包括里面所有的包）
conda remove -n voxcpm --all -y

# 3. 清理缓存（防止下次安装时用到坏的缓存包）
conda clean --all -y

第二步：创建纯净的新环境

# 1. 创建新环境（指定 Python 3.10，最稳定）
conda create -n voxcpm python=3.10 -y

# 2. 激活环境
conda activate voxcpm

第三步：手动安装 GPU 版 PyTorch (最关键！)

不要直接运行 pip install voxcpm，否则它又会给你装上 CPU 版。我们需要先“占位”，把正确的 GPU 版装好。

复制下面这行命令运行（下载量约 2.5GB，请耐心等待）：pytorch.org/get-started…

pip install torch==2.9.1 torchvision==0.24.1 torchaudio==2.9.1 --index-url https://download.pytorch.org/whl/cu128

第四步：安装 VoxCPM 和 TorchCodec

# 1. 安装主程序
pip install voxcpm

# 2. 安装解码器库
pip install torchcodec

第五步：搞定 FFmpeg (手动挂载法)

因为 Windows Conda 安装 FFmpeg 容易报错，我们采用手动下载 + 代码挂载的方案。

下载：点击下载：ffmpeg-7.1-full_build-shared.7z(一定要带 shared 字样！只有它才有 DLL 文件)
解压：解压到 D:\FFmpeg。确保你能看到 D:\FFmpeg\bin 里面有很多 .dll 文件。

修改代码：打开 D:\python\VoxCPM-main\app.py，把原来的内容全部清空（或者在最最前面插入），确保文件前几行是这样的：

import os
# ⚠️ 这里一定要改成你刚刚下载并解压的那个 shared 版本的 bin 路径！
# 必须能在这个文件夹里看到 .dll 文件才行！
ffmpeg_bin_path = r"D:\FFmpeg_Shared\bin"  

os.environ["PATH"] = ffmpeg_bin_path + os.pathsep + os.environ["PATH"]

if hasattr(os, 'add_dll_directory'):
    try:
        os.add_dll_directory(ffmpeg_bin_path)
        print("✅ 成功！已强制挂载 FFmpeg 动态库")
    except Exception as e:
        print(f"❌ 挂载失败: {e}")

# ... 下面才是原来的 import torch ...