Fish Speech 部署教程【最强TTS】

337 阅读3分钟

Fish Speech 部署教程

项目介绍

Fish Speech 是一个开源的 SOTA(State-of-the-Art)文本转语音(TTS)系统,由 fishaudio 团队开发。该项目在 TTS-Arena2 排行榜上获得了第一名的成绩,代表了当前开源 TTS 技术的最高水平。

主要特点

1. 卓越的语音质量

  • 在英文文本上实现了 0.008 的 WER(词错误率)和 0.004 的 CER(字符错误率)
  • 在 Seed-TTS Eval 评估中,CER 约为 0.4%,WER 约为 0.8%
  • TTS-Arena2 获得第一名

2. 零样本和少样本语音克隆

  • 只需 10-30 秒的语音样本即可生成高质量的 TTS 输出
  • 无需大量训练数据即可克隆声音

3. 多语言和跨语言支持

  • 支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语
  • 只需复制粘贴多语言文本,无需担心语言识别问题
  • 强大的跨语言合成能力

4. 不依赖音素

  • 模型具有强大的泛化能力,不依赖音素进行 TTS
  • 可以处理任何语言脚本的文本

5. 高性能

  • 使用 torch compile 加速
  • 在 Nvidia RTX 4090 GPU 上,实时因子约为 1:7
  • 推理速度快,适合实时应用

6. 丰富的语音控制

  • 支持多种情感标记:愤怒、悲伤、兴奋、惊讶等 20+ 种基础情感
  • 支持高级情感:讽刺、犹豫、尴尬等 25+ 种复杂情感
  • 支持语气标记:低语、喊叫、柔和语气等
  • 支持特殊音效:笑声、哭泣、叹息、喘息等

7. 易于部署

  • 提供基于 Gradio 的 WebUI 界面
  • 原生支持 Linux 和 Windows(macOS 支持即将推出)
  • 可轻松搭建推理服务器

部署过程

前置条件

在开始部署之前,请确保已安装以下工具:

  • Git:用于克隆项目代码
  • Conda:用于管理 Python 虚拟环境
  • NVIDIA 驱动:确保显卡驱动已正确安装
  • sudo 权限:用于安装系统依赖包

1. 系统要求

支持的系统:

  • Linux
  • WSL (Windows Subsystem for Linux)

硬件要求:

  • GPU 内存:至少 12GB(推理)

2. 克隆项目

首先使用 Git 克隆 Fish Speech 项目到本地:

git clone https://github.com/fishaudio/fish-speech.git
cd fish-speech

3. 下载模型文件

需要手动下载预训练模型文件到项目的 checkpoints/fish-speech-1.5 目录下。

模型下载地址: huggingface.co/fishaudio/f…

步骤:

  1. 在项目根目录下创建目录结构:

    mkdir -p checkpoints/fish-speech-1.5
    
  2. 访问 Hugging Face 模型仓库,下载所有模型文件

  3. 将下载的模型文件放置到 checkpoints/fish-speech-1.5/ 目录下

目录结构示例:

fish-speech/
└── checkpoints/
    └── fish-speech-1.5/
        ├── model.pth
        ├── config.json
        └── [其他模型文件]

4. 安装系统依赖

安装用于音频处理的系统依赖项:

sudo apt install portaudio19-dev libsox-dev ffmpeg

5. 配置 Python 环境

使用 Conda 创建并激活 Python 虚拟环境:

# 创建 Python 3.12 环境
conda create -n fish-speech python=3.12

# 激活环境
conda activate fish-speech

6. 安装 UV 包管理器

在虚拟环境中安装 UV:

pip3 install uv

7. 安装项目依赖

使用 UV 安装项目依赖(根据 GPU 版本选择对应的 CUDA 版本):

# GPU 安装 (选择您的 CUDA 版本: cu126, cu128, cu129)
uv sync --python 3.12 --extra cu129

注意: 安装 CUDA 之前需要查看自己的显卡版本支持哪个 CUDA 版本。

查看显卡支持的 CUDA 版本:

nvidia-smi

查看输出中的 "CUDA Version" 字段,选择对应或更低的 CUDA 版本进行安装。

8. 启动 Web UI 界面

完成安装后,可以使用以下命令启动 Web 界面:

uv run python -m tools.run_webui

启动成功后,Web UI 默认会在 http://127.0.0.1:7860 上运行。在浏览器中访问该地址即可使用 Fish Speech 的 Web UI 界面。

9. 启动 API 服务器(可选)

如果需要在其他项目中集成 Fish Speech 的 API,可以启动 API 服务器:

uv run python -m tools.api_server --listen 0.0.0.0:2000

访问 API 文档:

启动后,在浏览器中访问 http://127.0.0.1:2000 即可查看 API 接口文档。

通过 API 服务器,你可以在其他应用程序中调用 Fish Speech 的文本转语音功能。