首发支持 BSMamba2！ZFTurbo 开源通用音乐分离训练框架在人工智能音频处理领域，音乐源分离（Music So

在人工智能音频处理领域，音乐源分离（Music Source Separation）技术正迎来一次重要的工具化升级。由知名开发者 ZFTurbo 维护的开源项目 Music-Source-Separation-Training 近日成为社区焦点。该项目不仅提供了一个通用的音乐分离模型训练框架，更率先整合了包括最新 BSMamba2 在内的多种前沿架构，旨在降低研究人员和开发者定制高性能分离模型的门槛。

从黑盒到通用训练工厂

长期以来，音乐分离领域虽然涌现了如 Demucs、RoFormer 等优秀模型，但复现训练过程往往面临代码不统一、配置复杂等难题。ZFTurbo 推出的这一仓库正是为了解决这一痛点。

Music-Source-Separation-Training

该项目基于 SDX23 挑战赛的获奖代码构建，核心理念是打造一个易于修改、高度灵活的实验平台。用户无需从头编写底层代码，只需通过简单的命令行参数，即可调用包括 MDX23C、Demucs4HT、Band Split RoFormer、SCNet 以及最新的 BSMamba2 等多种主流架构进行训练。

“这个仓库的主要目标是创建一个易于修改以进行实验的训练代码，”项目介绍中写道。目前，该仓库已获得超过 1.2k 的星标和 179 次叉取，显示出社区对其高度的认可。

首发支持 BSMamba2 等最新架构

值得注意的是，该项目对新技术的响应速度极快。根据仓库最新的发布记录（2026年1月），项目已正式支持了基于 Mamba 架构的最新模型 BSMamba2。

BSMamba2 作为一种新兴的状态空间模型（State Space Model），在处理长序列音频数据时展现出比传统 Transformer 更高的效率和潜力。此外，框架还广泛支持：

Transformer 系列：如 Band Split RoFormer、Mel-Band RoFormer、Conformer 等。

CNN 与混合架构：如 MDX23C、Demucs4HT、Swin Upernet 等。

创新架构：如 Apollo、BandIt v2 等。

这种一站式的支持能力，使得研究者可以快速在同一框架下对比不同架构的性能，极大地加速了算法迭代。

功能亮点：LoRA 微调与多 GPU 加速

为了适应不同用户的需求，该框架引入了多项实用特性：

LoRA 微调支持：针对显存有限的用户或快速适配特定场景的需求，项目文档详细提供了基于 LoRA 的微调方案，允许用户在冻结大部分参数的情况下高效训练模型。

多 GPU 分布式训练：内置 train_ddp.py 脚本，支持多卡并行训练，显著缩短大型模型的训练周期。

图形化界面（GUI）：对于不熟悉命令行的用户，项目还提供了基于 wxPython 的图形界面，让音乐分离训练和推理变得更加直观易用。

模型集成：提供专用脚本，可将多个模型的预测结果进行集成，进一步提升分离质量，这在各类音频分离竞赛中是提升分数的关键技巧。

该项目支持用户导入自定义数据集（如 MUSDB18 或其他私有数据），并通过丰富的数据增强策略（Augmentations）提升模型鲁棒性。这意味着音乐制作公司、版权机构乃至个人创作者，都可以利用该框架训练针对特定乐器或人声风格的专属分离模型。

此外，项目还提供了将训练好的模型转换为 ONNX 和 TensorRT 格式的指南，这使得高性能模型能够轻松部署到边缘设备或生产环境中，为实时音频处理应用提供了必要基础。

ZFTurbo 积极倡导社区共建，鼓励用户分享自己训练的优质模型权重和配置文件。目前，仓库文档中已收录了多个社区贡献的预训练模型列表，形成了良性的技术生态循环。

随着 BSMamba2 等新架构的加入，以及日益完善的工具链，Music-Source-Separation-Training 正逐渐成为音乐 AI 领域不可或缺的基础设施。它不仅推动了学术研究的边界，也为音乐科技的商业化落地注入了新的活力。

项目地址：github.com/ZFTurbo/Mus…

当然，如果你不会熟练操作这些代码，那么你又有人声音频分离这种需求，也可以尝试有简易操作 GUI 的简鹿人声分离工具，该工具支持人声分离、音乐伴奏分离等等，提供了 Windows 和 Mac 版本。