免费声音克隆来了!清华大学联合研发 VoxCPM,真人级 TTS 震撼上线

98 阅读2分钟

VoxCPM 是由 面壁智能 × 清华大学 联合研发的一款新一代 文本转语音(TTS)模型
简单来说,就是把一段文字,直接变成自然、接近真人的声音——无论是小说、旁白、台词,还是讲解稿,都能一键生成音频。

它最大的特点是 “无分词器”架构
传统 TTS 往往需要先把句子拆成一个个字或词再合成,比如:

「我爱吃苹果」→「我 / 爱 / 吃 / 苹果」

这种方式容易导致语气生硬、停顿不自然,听起来像“拼出来的声音”。

VoxCPM 不需要分词,它是直接基于整句语境进行建模和生成,能同时理解上下文关系、情绪走向和语义重心,因此在语调、重音、停顿和连贯性上都更加自然,明显减少“机器感”和“断句感”。

一句话总结:
👉 VoxCPM 更像是在“理解你在说什么”,再把它“读出来”,而不是把字一个个念出来。

仓库地址:github.com/OpenBMB/Vox…

第一步:彻底删除旧环境(有安装过VoxCpm模型执行)

请关闭所有正在运行的 Python 程序,打开终端(Anaconda Prompt 或 PowerShell):

# 1. 退出当前环境
conda deactivate

# 2. 删除整个环境(包括里面所有的包)
conda remove -n voxcpm --all -y

# 3. 清理缓存(防止下次安装时用到坏的缓存包)
conda clean --all -y

第二步:创建纯净的新环境

# 1. 创建新环境(指定 Python 3.10,最稳定)
conda create -n voxcpm python=3.10 -y

# 2. 激活环境
conda activate voxcpm

第三步:手动安装 GPU 版 PyTorch (最关键!)

不要直接运行 pip install voxcpm,否则它又会给你装上 CPU 版。 我们需要先“占位”,把正确的 GPU 版装好。

复制下面这行命令运行(下载量约 2.5GB,请耐心等待):pytorch.org/get-started…

pip install torch==2.9.1 torchvision==0.24.1 torchaudio==2.9.1 --index-url https://download.pytorch.org/whl/cu128

第四步:安装 VoxCPM 和 TorchCodec

# 1. 安装主程序
pip install voxcpm

# 2. 安装解码器库
pip install torchcodec

第五步:搞定 FFmpeg (手动挂载法)

因为 Windows Conda 安装 FFmpeg 容易报错,我们采用手动下载 + 代码挂载的方案。

  1. 下载: 点击下载:ffmpeg-7.1-full_build-shared.7z(一定要带 shared 字样!只有它才有 DLL 文件)
  2. 解压: 解压到 D:\FFmpeg。确保你能看到 D:\FFmpeg\bin 里面有很多 .dll 文件。

修改代码: 打开 D:\python\VoxCPM-main\app.py把原来的内容全部清空(或者在最最前面插入),确保文件前几行是这样的:

import os
# ⚠️ 这里一定要改成你刚刚下载并解压的那个 shared 版本的 bin 路径!
# 必须能在这个文件夹里看到 .dll 文件才行!
ffmpeg_bin_path = r"D:\FFmpeg_Shared\bin"  

os.environ["PATH"] = ffmpeg_bin_path + os.pathsep + os.environ["PATH"]

if hasattr(os, 'add_dll_directory'):
    try:
        os.add_dll_directory(ffmpeg_bin_path)
        print("✅ 成功!已强制挂载 FFmpeg 动态库")
    except Exception as e:
        print(f"❌ 挂载失败: {e}")

# ... 下面才是原来的 import torch ...