如何在本地部署XTTS-v2(text2speech)模型

94 阅读1分钟

如何在本地部署XTTS-v2(text2speech)模型

XTTS-v2

通过现有语音、文本,模仿声音生成语音

部署步骤:

(默认环境有conda)

一、 新建conda环境

# 1. 创建一个名为 tts-env 的新环境 (Python 3.9 或 3.10 都可以)
conda create --name tts-env python=3.10

# 2. 激活新环境
conda activate tts-env

二、 安装一些特殊依赖包

1、访问指定网站pytorch.org/get-started…,安装指定版本的torch。(需要环境有GPU)

pip3 install torch torchvision --index-url download.pytorch.org/whl/cu126

2、验证torch是否安装成功
python -c "import torch; print(torch.cuda.is_available()); print(torch.version.cuda); print(torch.backends.cudnn.is_available())"

3、安装tts

pip install coqui_tts

4、安装torchcodec

pip install torchcodec

5、安装ffmpeg

conda install -c conda-forge ffmpeg

6、安装pypinyin

pip install pypinyin

三、执行程序

1、环境下打开spyder,新建文件,拷入代码

from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)

# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
                file_path="output.wav",
                speaker_wav="/path/to/target/speaker.wav",
                language="en")

2、修改参数,运行代码

text:你想要生成的语音文本

speaker_wav:你要拷贝的声音源

language:语言,中文为“zh-cn”