如何在本地部署XTTS-v2（text2speech）模型如何在本地部署XTTS-v2（text2speech）模型 X

如何在本地部署XTTS-v2（text2speech）模型

XTTS-v2

通过现有语音、文本，模仿声音生成语音

部署步骤：

（默认环境有conda）

一、新建conda环境

# 1. 创建一个名为 tts-env 的新环境 (Python 3.9 或 3.10 都可以)
conda create --name tts-env python=3.10

# 2. 激活新环境
conda activate tts-env

二、安装一些特殊依赖包

1、访问指定网站pytorch.org/get-started…，安装指定版本的torch。（需要环境有GPU）

pip3 install torch torchvision --index-url download.pytorch.org/whl/cu126

2、验证torch是否安装成功
python -c "import torch; print(torch.cuda.is_available()); print(torch.version.cuda); print(torch.backends.cudnn.is_available())"

3、安装tts

pip install coqui_tts

4、安装torchcodec

pip install torchcodec

5、安装ffmpeg

conda install -c conda-forge ffmpeg

6、安装pypinyin

pip install pypinyin

三、执行程序

1、环境下打开spyder，新建文件，拷入代码

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

2、修改参数，运行代码

text：你想要生成的语音文本

speaker_wav：你要拷贝的声音源

language：语言，中文为“zh-cn”