开箱即用!语音处理黑科技来袭!阿里巴巴开源超强语音处理神器,语音分离、音视频说话人提取等功能一站式解决。

90 阅读4分钟

对于语音处理技术爱好者来说,这可能是今年最让人兴奋的消息之一了。

阿里巴巴刚刚开源了 ClearerVoice-Studio,这款工具以其强大的语音增强、分离和说话人提取功能,迅速吸引了开发者和研究者的注意。

图片

无论是会议录音整理、电话语音处理,还是音视频说话人提取,都能用它轻松搞定。

项目介绍

ClearerVoice-Studio 是一个开源的 AI 语音处理工具包,由阿里巴巴集团智能计算研究所的语音实验室开发。

它提供了最先进的预训练模型,以及训练和推理脚本,方便进行语音处理任务。

该工具分为三个模块,为用户提供从基础使用到专业开发的完整工具链:

ClearVoice:提供语音去噪、分离、音视频目标说话人提取等任务的用户友好解决方案。

Train:为高级研究者和开发者提供模型微调和训练脚本。

SpeechScore:语音质量评估工具包,包含多种流行的语音质量指标,如信噪比、语音质量感知评估等,用于评估不同模型性能。

主要功能

  •  语音降噪:将嘈杂的音频信号转化为高质量的清晰语音,适用于各种嘈杂环境,比如会议室、街道或咖啡馆。

  •  语音分离:从复杂混合音频中无缝提取目标语音,无论是双人对话还是多人会议,都可以做到“各听其声”。

  •  目标说话人提取:精确识别并提取目标说话人的声音,比如从一段访谈音频中只提取特定嘉宾的发言部分。

  •  语音质量评估:使用多种语音质量指标,帮助你评估语音处理效果。

快速使用

打开官方在抱抱脸上提供的在线 Demo:

图片

声音增强

Task1标签页便是**【声音增强】**功能使用区,从背景噪音中提取清晰的语音,以增强语音质量。

它支持 16 kHz 和 48 kHz 音频输出。只需上传一段音频,或单击其中一个示例,就可以输出结果。

图片

从结果上来看,的确是将嘈杂音处理掉了,但是对原始音频的音量也有所弱化,不过这点相比于去噪来说很容易解决了。

语音分离

Task2标签页便是**【语音分离】**功能使用区,可将单个语音与混合音频分开。

该功能支持 16 kHz 和两个输出流。

图片

试了下两段女声混合音频,分离效果的确好,将两个人说话语音分离为两个单独的文件。

这个对于会议录音还有音乐合唱重唱部分音频进行分离也及其有效。

说话人提取

Task3标签页便是**【说话人提取】**功能使用区,使用面部识别从多人说话的视频中提取每个人的声音。

图片

适用场景

1、会议录音整理

将多人会议的音频分离为独立的语音信号,同时降噪提升语音质量,方便后续整理与归档。

2、电话录音优化

对嘈杂背景中的电话语音进行降噪和分离,确保客户服务记录清晰无误。

3、视频后期制作

精确提取目标说话人语音,提高音频质量,减少后期处理时间。

4、语音研究

为研究者提供便捷的工具包,结合质量评估模块快速验证模型效果。

ClearerVoice-Studio 的优势

  •  全栈解决方案:集语音降噪、分离和提取于一体,无需额外工具即可完成全流程语音处理。

  •  性能卓越:模型训练基于阿里巴巴的 ModelScope 魔搭平台,具备出色的性能与可靠性。

  •  灵活定制:提供完整的微调和训练脚本,开发者可以根据自己的需求调整模型。

  •  社区支持:开源项目拥有活跃的社区支持,可以快速获取技术支持和文档更新。

写在最后

ClearerVoice-Studio 是阿里巴巴在语音处理领域的一次重要尝试,它不仅为日常应用提供了强大的工具,也为研究者和开发者开辟了更多可能性。

其集语音降噪、分离和目标提取功能于一身,凭借其强大的性能和灵活性,堪称语音处理领域的“瑞士军刀”。

无论你是想提升语音处理效率的企业,还是专注于模型优化的研究者,都能从中受益。

GitHub 地址:github.com/modelscope/…

在线 Demo:huggingface.co/spaces/alib…