SoulX-Podcast的安装、使用

165 阅读1分钟

SoulX-Podcast是一个开源的TTS模型,专为播客风格的多轮、多说话人对话式语音生成而设计,同时也在传统的单说话人语音合成任务中实现了卓越性能。

一、参考地址

**Demo:soul-ailab.github.io/soulx-podca…

**论文地址:arxiv.org/pdf/2510.23…

**Source Code:github.com/Soul-AILab/…

**HuggingFace:huggingface.co/collections…

二、资源

需要5G左右的GPU

三、安装

安装环境:

cd /data4
git clone git@github.com:Soul-AILab/SoulX-Podcast.git
如果不行则下载zip,然后unzip SoulX-Podcast.zip
cd SoulX-Podcast

conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip install -r requirements.txt
# 在中国地区,强烈建议使用下面的命令安装依赖库:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

下载模型:

mkdir -p pretrained_models

# Make sure you have git-lfs installed (https://git-lfs.com)
git lfs install

# base model
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B pretrained_models/SoulX-Podcast-1.7B

# dialectal model
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect pretrained_models/SoulX-Podcast-1.7B-dialect

四、测试

# 对话推理
bash example/infer_dialogue.sh
bash example/infer_tts.sh

修改infer_tts.sh里面的text和--output_path:
bash example/120_tts.sh

也可以直接调用cli/tts.py:
cd /data4/SoulX-Podcast
export PYTHONPATH=.
echo $PYTHONPATH
python cli/tts.py \
        --prompt_text "喜欢攀岩、徒步、滑雪的语言爱好者,以及过两天要带着全部家当去景德镇做陶瓷的白日梦想家。" \
        --dialect_prompt ""  \
        --prompt_audio "example/audios/female_mandarin.wav" \
        --text "你好啊,我是一个快乐的码农,很高兴见到你" \
        --model_path pretrained_models/SoulX-Podcast-1.7B \
        --output_path outputs/happy.wav \
        --seed 7

输出的音频为24KHz、16位、单声道的wav文件。