语音处理神器:Voice-Pro,一键安装实现转录、翻译和TTS!需自行部署!

891 阅读4分钟

图片

大家最近有语音识别、翻译和 TTS(文字转语音)的相关需求吗?

这里有一个非常强大又方便的工具推荐给大家—Voice-Pro

它是一个基于 Gradio Web UI 的自托管工具。整合了实时转录、翻译和 TTS,并且提供一键安装、批量处理和可视化界面,让你轻松应对各类语音需求。

毕竟在自媒体时代,语音识别和翻译需求愈发重要,尤其是对于内容创作者和需要跨语言沟通的用户。无论是下载YouTube视频、移除噪音,还是添加多语言字幕,Voice-Pro 都可以在一站式界面下轻松完成,让复杂的语音处理变得简单直观。

💡 主要特点概览

  •  全面集成功能:包含YouTube下载器、噪音去除、字幕生成、翻译和TTS,用户可以在单一界面下完成整个流程。

  •  多语言支持:支持100种语言的语音识别和字幕生成,翻译可达100多种语言,TTS提供可调的语速、音量和音调设置。

  •  视频无损转换:在多语言视频中,原始背景音乐和音效不会受到干扰,让观看体验更加舒适。

  •  批量处理:支持对多个文件进行批量操作,提升效率。

🔍 主要功能详解

Studio 标签页

Studio标签页是Voice-Pro的核心工作区,提供了全面的语音处理功能:

  •  YouTube下载器:可以直接从YouTube下载视频并提取音频,支持mp3、wav、flac等格式,方便用户后续处理。

  •  噪音去除:通过UVR5和Demucs引擎分离语音和背景音,让语音内容更加清晰。

  •  STT(语音转文字):集成Whisper等多种模型,支持100种语言的语音识别,满足多语言转录需求。

  •  翻译:支持多达100多种语言的翻译,并可直接将字幕翻译为语音输出。

  •  TTS(文字转语音):不仅可以将翻译后的文本转为语音,还可以调节语速、音量和音调,打造更加个性化的体验。

Whisper Caption 标签页

专为字幕制作设计,支持多语言字幕创建:

  •  多语言字幕支持:包括90多种语言,适合需要多语言字幕的内容创作者。

  •  精准标记:单词级的高亮功能,适用于需要精确配合的场景,确保字幕与语音同步。

  •  降噪功能:降噪选项可选择Demucs和MDXNet算法,提升语音的清晰度。

Translate 标签页

Translate标签页专注于字幕翻译和文本翻译:

  •  字幕格式支持:支持主流字幕文件格式(如ass、ssa、srt、vtt等),可以直接将字幕翻译成其他语言。

  •  文本直接输入:如果不使用文件,也可以手动输入文本进行翻译,非常适合临时性的翻译需求。

TTS 标签页

适用于文字转语音处理,适合音频内容的制作:

  •  支持多种语言和声音:包含400多种声音选择,可根据不同场景选择合适的发音。

  •  个性化调整:用户可调整语音的音量、音调和语速,打造更自然的听感。

Live Translation 标签页

实时翻译功能,适合会议或实时转录场景:

  •  实时语音识别与翻译:用户可选择麦克风或其他音频输入源,实现实时的字幕生成和翻译。

  •  数据保存:支持保存转录的音频和翻译文本,方便后续查阅。

Batch 标签页

处理大量文件的批处理选项,适合大规模的翻译和字幕创建任务:

  •  批量字幕生成与翻译:简化大批量文件处理过程,适合企业用户或高强度内容生产场景。

  •  批量TTS:支持字幕的批量语音合成,适用于大量音频文件的生成。

💻 运行环境

  •  系统要求:支持Windows 10/11的64位系统,不适用于Linux和Mac OS。

  •  硬件建议:推荐使用具备CUDA 12.1支持的NVIDIA显卡,4GB以上的显存会更为理想。

  •  内存要求:4GB及以上。

  •  硬盘需求:至少20GB的空闲空间。

  •  网络连接:安装和使用翻译功能时需要联网。

📀 安装步骤

Voice-Pro支持一键安装,只需按照以下步骤操作:

准备包

可以从项目主页下载最新版本的zip文件。

安装与运行程序

  •  运行configure.bat:首次运行时将自动安装所需的依赖,包括git、ffmpeg和CUDA(如使用GPU)。此步骤可能耗时较长,请勿中途关闭命令窗口。

  •  运行start.bat:完成安装后会自动启动Voice-Pro的Web界面。首次运行需要联网,大约耗时一小时。

卸载程序

运行uninstall.bat文件,即可自动删除相关安装文件。

🌟 总结

总的来说,Voice-Pro 将语音识别、翻译和 TTS 功能集成在一个可视化、简便易用的界面中,可以为用户提供流畅的多语言处理体验。

可让你的语音处理工作更轻松!

项目地址:github.com/abus-aikore…