中央音乐学院联合研究:视频自动配乐还卡点
论文标题: Video Echoed in Music: Semantic, Temporal, and Rhythmic Alignment for Video-to-Music Generation
作者团队: 中央音乐学院、北京大学、阿里巴巴等
发布时间: 2025年11月12日
🔗 Github地址: vem-paper.github.io/VeM-page/
🔗 Lab4AI链接: www.lab4ai.cn/paper/detai…
✨ 研究背景:
视频配乐要同时"贴"内容、跟段落、能卡点。但自动配乐常出现情绪不匹配、分镜节奏不同步、转场对不上鼓点,导致视听割裂。
✨ 研究内容:
论文提出VeM: 以潜空间音乐扩散模型为主干,把视频先做"分层解析"再作为条件输入生成过程。