SoulX-Podcast是一个开源的TTS模型,专为播客风格的多轮、多说话人对话式语音生成而设计,同时也在传统的单说话人语音合成任务中实现了卓越性能。
一、参考地址
**Demo:soul-ailab.github.io/soulx-podca…
**论文地址:arxiv.org/pdf/2510.23…
**Source Code:github.com/Soul-AILab/…
**HuggingFace:huggingface.co/collections…
二、资源
需要5G左右的GPU
三、安装
安装环境:
cd /data4
git clone git@github.com:Soul-AILab/SoulX-Podcast.git
如果不行则下载zip,然后unzip SoulX-Podcast.zip
cd SoulX-Podcast
conda create -n soulxpodcast -y python=3.11
conda activate soulxpodcast
pip install -r requirements.txt
# 在中国地区,强烈建议使用下面的命令安装依赖库:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
下载模型:
mkdir -p pretrained_models
# Make sure you have git-lfs installed (https://git-lfs.com)
git lfs install
# base model
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B pretrained_models/SoulX-Podcast-1.7B
# dialectal model
git clone https://huggingface.co/Soul-AILab/SoulX-Podcast-1.7B-dialect pretrained_models/SoulX-Podcast-1.7B-dialect
四、测试
# 对话推理
bash example/infer_dialogue.sh
bash example/infer_tts.sh
修改infer_tts.sh里面的text和--output_path:
bash example/120_tts.sh
也可以直接调用cli/tts.py:
cd /data4/SoulX-Podcast
export PYTHONPATH=.
echo $PYTHONPATH
python cli/tts.py \
--prompt_text "喜欢攀岩、徒步、滑雪的语言爱好者,以及过两天要带着全部家当去景德镇做陶瓷的白日梦想家。" \
--dialect_prompt "" \
--prompt_audio "example/audios/female_mandarin.wav" \
--text "你好啊,我是一个快乐的码农,很高兴见到你" \
--model_path pretrained_models/SoulX-Podcast-1.7B \
--output_path outputs/happy.wav \
--seed 7
输出的音频为24KHz、16位、单声道的wav文件。