开箱即用!一个功能丰富的 AI 语音工具箱!

230 阅读2分钟

当我们处理大量音频文件时,往往需要语音识别、转录甚至语音合成等多款工具协作完成工具。

这时候,要是有一款工具能够一站式解决从语音识别到语音合成的一切需求就好。

今天,我在 GitHub 上就发现了一款可本地部署的多功能 AI 语音工具箱:Easy Voice Toolkit
软件免费高速下载地址:pan.quark.cn/s/a8053bae3…

这款工具箱不仅涵盖了音频处理、语音转录,还能轻松生成定制的数据集,更厉害的是,它支持中文、英文和日文三种语言。

图片

安装起来也很简单,可以直接在本地运行,也可以在 Google Colab 上部署,甚至还有 Windows 的开箱即用安装包!

接下来,让我给大家详细介绍一下。

项目介绍

工具箱提供了包括语音模型训练在内的多种自动化音频工具,包括音频处理、语音识别、语音转录、数据集制作、模型训练、语音合成等。

大家可根据自己需求选择性的使用,或者通过组合使用这些工具,完成一次语音模型的训练。

目前各个工具对语言的支持情况如下:

图片

部署指南

本地部署:

  1. 环境要求 Python >= 3.8;
  2. 克隆项目,并进入项目目录;
git clone https://github.com/Spr-Aachen/Easy-Voice-Toolkit.git
cd Easy-Voice-Toolkit

3. 安装相关依赖;

# e.g. (注意自己的cuda版本,这里以11.8为例)
pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118


# 安装项目依赖
pip install -r requirements.txt


# 安装GUI依赖
pip install pyside6 QEasyWidgets pywin32==300 psutil pynvml darkdetect PyGithub

4. 运行程序;

python Run.py

云端部署:

除了以上本地部署,项目还支持在 Google Colab 上云端运行使用,地址见文章末尾。

客户端:

目前项目仅提供 Windows 系统客户端,可在项目的 Releases 页面上进行下载,地址见文章末尾。

写在最后

以上便是 Easy Voice Toolkit 工具的详细介绍。

总的来说,Easy Voice Toolkit 不仅是一个功能丰富的工具箱,更是解决了我们在多种音频处理场景中的痛点。