中央音乐学院联合研究:视频自动配乐还卡点

0 阅读2分钟

中央音乐学院联合研究:视频自动配乐还卡点

image.png

image.png 论文标题: Video Echoed in Music: Semantic, Temporal, and Rhythmic Alignment for Video-to-Music Generation

作者团队: 中央音乐学院、北京大学、阿里巴巴等

发布时间: 2025年11月12日

🔗 Github地址: vem-paper.github.io/VeM-page/
🔗 Lab4AI链接: www.lab4ai.cn/paper/detai…

✨ 研究背景:

视频配乐要同时"贴"内容、跟段落、能卡点。但自动配乐常出现情绪不匹配、分镜节奏不同步、转场对不上鼓点,导致视听割裂。

✨ 研究内容:

论文提出VeM: 以潜空间音乐扩散模型为主干,把视频先做"分层解析"再作为条件输入生成过程。

✨ 具体包括:

  • 分层视频解析: 同时提取全局语义/情绪、分镜级语义与时长结构、帧级转场时间点,把视频从"一个整体特征"变成可控的结构化条件。
  • 分镜引导对齐: 在扩散网络中用分镜条件做交叉注意力,引导音乐跟随镜头段落推进,并通过位置/时长编码保持时间同步,使音乐的主题与段落变化更贴视频。
  • 转场—节拍精细同步: 将转场序列与节拍信息对齐,构造节奏约束特征,再用适配器注入扩散过程,强化"转场落在节拍边界附近"的卡点效果