开箱即用！语音处理黑科技来袭！阿里巴巴开源超强语音处理神器，语音分离、音视频说话人提取等功能一站式解决。对于语音处理技术

对于语音处理技术爱好者来说，这可能是今年最让人兴奋的消息之一了。

阿里巴巴刚刚开源了 ClearerVoice-Studio，这款工具以其强大的语音增强、分离和说话人提取功能，迅速吸引了开发者和研究者的注意。

无论是会议录音整理、电话语音处理，还是音视频说话人提取，都能用它轻松搞定。

ClearerVoice-Studio 是一个开源的 AI 语音处理工具包，由阿里巴巴集团智能计算研究所的语音实验室开发。

它提供了最先进的预训练模型，以及训练和推理脚本，方便进行语音处理任务。

该工具分为三个模块，为用户提供从基础使用到专业开发的完整工具链：

①ClearVoice：提供语音去噪、分离、音视频目标说话人提取等任务的用户友好解决方案。

②Train：为高级研究者和开发者提供模型微调和训练脚本。

③SpeechScore：语音质量评估工具包，包含多种流行的语音质量指标，如信噪比、语音质量感知评估等，用于评估不同模型性能。

打开官方在抱抱脸上提供的在线 Demo：

声音增强

Task1标签页便是**【声音增强】**功能使用区，从背景噪音中提取清晰的语音，以增强语音质量。

它支持 16 kHz 和 48 kHz 音频输出。只需上传一段音频，或单击其中一个示例，就可以输出结果。

从结果上来看，的确是将嘈杂音处理掉了，但是对原始音频的音量也有所弱化，不过这点相比于去噪来说很容易解决了。

语音分离

Task2标签页便是**【语音分离】**功能使用区，可将单个语音与混合音频分开。

该功能支持 16 kHz 和两个输出流。

试了下两段女声混合音频，分离效果的确好，将两个人说话语音分离为两个单独的文件。

这个对于会议录音还有音乐合唱重唱部分音频进行分离也及其有效。

说话人提取

Task3标签页便是**【说话人提取】**功能使用区，使用面部识别从多人说话的视频中提取每个人的声音。

1、会议录音整理

将多人会议的音频分离为独立的语音信号，同时降噪提升语音质量，方便后续整理与归档。

2、电话录音优化

对嘈杂背景中的电话语音进行降噪和分离，确保客户服务记录清晰无误。

3、视频后期制作

精确提取目标说话人语音，提高音频质量，减少后期处理时间。

4、语音研究

为研究者提供便捷的工具包，结合质量评估模块快速验证模型效果。

ClearerVoice-Studio 是阿里巴巴在语音处理领域的一次重要尝试，它不仅为日常应用提供了强大的工具，也为研究者和开发者开辟了更多可能性。

其集语音降噪、分离和目标提取功能于一身，凭借其强大的性能和灵活性，堪称语音处理领域的“瑞士军刀”。

无论你是想提升语音处理效率的企业，还是专注于模型优化的研究者，都能从中受益。