深入解析NotaGen:5亿参数+三阶段训练,解锁高质量AI音乐生成

25 阅读5分钟

人工智能(AI)的浪潮正在席卷各个领域,音乐创作也不例外。从简单的旋律生成到复杂的乐曲编排,AI展现出了惊人的潜力。然而,要生成具有深度、结构和情感的高质量古典音乐,一直是一个巨大的挑战。今天,我们将深入探讨一个在该领域取得突破性进展的开源模型——NotaGen,它凭借其庞大的参数规模和创新的训练方法,正在重新定义AI音乐生成的边界。

AI快站下载

aifasthub.com/ElectricAle…

NotaGen:不止生成,更懂创作

首先,我们需要明确NotaGen的核心定位。它并非直接生成音频文件,而是专注于符号音乐(Symbolic Music)的生成,特别是高质量的古典音乐乐谱。这意味着NotaGen的输出是结构化的乐谱信息,可以用ABC记谱法或MusicXML格式表示,为后续的演奏、编辑和分析提供了极大的便利。

NotaGen是由中央音乐学院(CCOM)、北京航空航天大学(BUAA)、清华大学等顶尖研究机构联合开发的成果,旨在解决现有模型在生成长篇、结构复杂且富有音乐性的古典乐曲时遇到的困难。

挑战:古典音乐生成的“高门槛”

为什么生成高质量的古典音乐如此困难?

  1. 1. 长程依赖性: 一首古典乐曲往往包含复杂的结构、主题的重复与发展,这对模型捕捉和维持长距离的音乐逻辑提出了极高要求。
  2. 2. 音乐理论规则: 和声、对位、曲式等复杂的音乐理论规则需要被模型理解和遵循。
  3. 3. 风格多样性: 从巴洛克时期的严谨到浪漫主义时期的奔放,不同时期、不同作曲家的风格迥异,模型需要具备学习和模仿特定风格的能力。

揭秘NotaGen架构:5亿参数的“音乐大脑”

NotaGen的强大能力,首先源于其精心设计的模型架构。它基于Tunesformer,并采用了分层级的双解码器结构:

  • Patch-level Decoder (片段级解码器): 负责捕捉音乐的局部模式和短期结构。
  • Character-level Decoder (字符级解码器): 在Patch-level的基础上,生成更精细的乐谱字符序列(如ABC记谱法中的音符、休止符等),确保细节的准确性。

这种分层设计使得模型能够同时关注音乐的宏观结构和微观细节。而NotaGen-large版本更是拥有高达5.16亿的参数量,为其学习复杂音乐模式提供了强大的容量支持。

Image

核心驱动力:创新的三阶段训练范式

仅仅拥有庞大的参数是不够的,如何有效训练模型才是关键。NotaGen借鉴了大型语言模型(LLM)的成功经验,采用了创新的三阶段训练范式:

第一阶段:大规模预训练 (General Music Understanding)

  • 目标: 让模型学习广泛的音乐模式和基本结构。
  • 数据: 使用了包含约160万首不同来源和风格的乐曲(如Lakh MIDI数据集的子集)进行预训练。这使得模型具备了对音乐语言的“通识”理解。

第二阶段:监督微调 (SFT - High-Quality Classical Adaptation)

  • 目标: 将模型的能力聚焦于高质量的古典音乐乐谱生成。
  • 数据: 精选了约9000首高质量的古典音乐乐谱(涵盖巴赫、莫扎特、贝多芬等152位著名作曲家),对模型进行微调。模型在此阶段学习生成符合古典音乐规范和风格的ABC记谱法或MusicXML格式乐谱。

第三阶段:强化学习对齐 (CLaMP-DPO - Aligning with Human Preferences)

  • 目标: 进一步提升生成乐谱的音乐性、连贯性和人类偏好度。
  • 方法: 采用了名为CLaMP-DPO (Contrastive Learning and Music Preference Direct Preference Optimization) 的创新强化学习方法。通过对比学习和直接偏好优化,让模型学习区分“好”的音乐和“不太好”的音乐,使其生成结果更贴近人类作曲家的水准和审美。

这三个阶段环环相扣,使得NotaGen不仅能理解音乐,更能“创作”出符合人类期待的高质量古典乐谱。

Image

性能卓越:超越基线的音乐品质

NotaGen的效果如何?在多项评估中,尤其是在主观A/B测试中,由NotaGen生成的乐谱在音乐性、结构连贯性和整体质量上,显著优于之前的基线模型,获得了测试者更高的偏好评分。这意味着NotaGen生成的音乐,在听感上更接近人类创作的高水平作品。

应用场景

无论你是音乐爱好者、作曲家、AI研究者还是开发者,都可以通过NotaGen探索AI在音乐创作中的无限可能,例如:

  • 辅助作曲: 快速生成乐思片段或完整的草稿。
  • 音乐教育: 生成特定风格的练习曲或教学示例。
  • 学术研究: 分析和探索不同音乐风格的计算模型。
  • 互动娱乐: 开发新颖的音乐交互应用。

总结

NotaGen凭借其5亿参数的庞大规模、创新的三阶段训练范式 (预训练+SFT+CLaMP-DPO) 以及精细的可控生成能力,在高质量古典音乐的符号生成领域取得了显著突破。它不仅展示了AI在理解和创作复杂艺术形式方面的巨大潜力,更通过开源将这一前沿技术带给了更广泛的社区。

AI快站下载

aifasthub.com/ElectricAle…