首发支持 BSMamba2!ZFTurbo 开源通用音乐分离训练框架

0 阅读4分钟

在人工智能音频处理领域,音乐源分离(Music Source Separation)技术正迎来一次重要的工具化升级。由知名开发者 ZFTurbo 维护的开源项目 Music-Source-Separation-Training 近日成为社区焦点。该项目不仅提供了一个通用的音乐分离模型训练框架,更率先整合了包括最新 BSMamba2 在内的多种前沿架构,旨在降低研究人员和开发者定制高性能分离模型的门槛。

从黑盒到通用训练工厂

长期以来,音乐分离领域虽然涌现了如 Demucs、RoFormer 等优秀模型,但复现训练过程往往面临代码不统一、配置复杂等难题。ZFTurbo 推出的这一仓库正是为了解决这一痛点。

Music-Source-Separation-Training

该项目基于 SDX23 挑战赛的获奖代码构建,核心理念是打造一个易于修改、高度灵活的实验平台。用户无需从头编写底层代码,只需通过简单的命令行参数,即可调用包括 MDX23C、Demucs4HT、Band Split RoFormer、SCNet 以及最新的 BSMamba2 等多种主流架构进行训练。

“这个仓库的主要目标是创建一个易于修改以进行实验的训练代码,”项目介绍中写道。目前,该仓库已获得超过 1.2k 的星标和 179 次叉取,显示出社区对其高度的认可。

首发支持 BSMamba2 等最新架构

值得注意的是,该项目对新技术的响应速度极快。根据仓库最新的发布记录(2026年1月),项目已正式支持了基于 Mamba 架构的最新模型 BSMamba2。

BSMamba2 作为一种新兴的状态空间模型(State Space Model),在处理长序列音频数据时展现出比传统 Transformer 更高的效率和潜力。此外,框架还广泛支持:

Transformer 系列:如 Band Split RoFormer、Mel-Band RoFormer、Conformer 等。

CNN 与混合架构:如 MDX23C、Demucs4HT、Swin Upernet 等。

创新架构:如 Apollo、BandIt v2 等。

这种一站式的支持能力,使得研究者可以快速在同一框架下对比不同架构的性能,极大地加速了算法迭代。

功能亮点:LoRA 微调与多 GPU 加速

为了适应不同用户的需求,该框架引入了多项实用特性:

LoRA 微调支持:针对显存有限的用户或快速适配特定场景的需求,项目文档详细提供了基于 LoRA 的微调方案,允许用户在冻结大部分参数的情况下高效训练模型。

多 GPU 分布式训练:内置 train_ddp.py 脚本,支持多卡并行训练,显著缩短大型模型的训练周期。

图形化界面(GUI):对于不熟悉命令行的用户,项目还提供了基于 wxPython 的图形界面,让音乐分离训练和推理变得更加直观易用。

模型集成:提供专用脚本,可将多个模型的预测结果进行集成,进一步提升分离质量,这在各类音频分离竞赛中是提升分数的关键技巧。

该项目支持用户导入自定义数据集(如 MUSDB18 或其他私有数据),并通过丰富的数据增强策略(Augmentations)提升模型鲁棒性。这意味着音乐制作公司、版权机构乃至个人创作者,都可以利用该框架训练针对特定乐器或人声风格的专属分离模型。

此外,项目还提供了将训练好的模型转换为 ONNX 和 TensorRT 格式的指南,这使得高性能模型能够轻松部署到边缘设备或生产环境中,为实时音频处理应用提供了必要基础。

ZFTurbo 积极倡导社区共建,鼓励用户分享自己训练的优质模型权重和配置文件。目前,仓库文档中已收录了多个社区贡献的预训练模型列表,形成了良性的技术生态循环。

随着 BSMamba2 等新架构的加入,以及日益完善的工具链,Music-Source-Separation-Training 正逐渐成为音乐 AI 领域不可或缺的基础设施。它不仅推动了学术研究的边界,也为音乐科技的商业化落地注入了新的活力。

项目地址:github.com/ZFTurbo/Mus…

当然,如果你不会熟练操作这些代码,那么你又有人声音频分离这种需求,也可以尝试有简易操作 GUI 的简鹿人声分离工具,该工具支持人声分离、音乐伴奏分离等等,提供了 Windows 和 Mac 版本。