如何在本地部署XTTS-v2(text2speech)模型
XTTS-v2
通过现有语音、文本,模仿声音生成语音
部署步骤:
(默认环境有conda)
一、 新建conda环境
# 1. 创建一个名为 tts-env 的新环境 (Python 3.9 或 3.10 都可以)
conda create --name tts-env python=3.10
# 2. 激活新环境
conda activate tts-env
二、 安装一些特殊依赖包
1、访问指定网站pytorch.org/get-started…,安装指定版本的torch。(需要环境有GPU)
pip3 install torch torchvision --index-url download.pytorch.org/whl/cu126
2、验证torch是否安装成功
python -c "import torch; print(torch.cuda.is_available()); print(torch.version.cuda); print(torch.backends.cudnn.is_available())"
3、安装tts
pip install coqui_tts
4、安装torchcodec
pip install torchcodec
5、安装ffmpeg
conda install -c conda-forge ffmpeg
6、安装pypinyin
pip install pypinyin
三、执行程序
1、环境下打开spyder,新建文件,拷入代码
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
# generate speech by cloning a voice using default settings
tts.tts_to_file(text="It took me quite a long time to develop a voice, and now that I have it I'm not going to be silent.",
file_path="output.wav",
speaker_wav="/path/to/target/speaker.wav",
language="en")
2、修改参数,运行代码
text:你想要生成的语音文本
speaker_wav:你要拷贝的声音源
language:语言,中文为“zh-cn”