中央音乐学院联合研究：视频自动配乐还卡点中央音乐学院联合研究：视频自动配乐还卡点论文标题: Video Echoed

中央音乐学院联合研究：视频自动配乐还卡点

论文标题: Video Echoed in Music: Semantic, Temporal, and Rhythmic Alignment for Video-to-Music Generation

作者团队: 中央音乐学院、北京大学、阿里巴巴等

发布时间: 2025年11月12日

视频配乐要同时"贴"内容、跟段落、能卡点。但自动配乐常出现情绪不匹配、分镜节奏不同步、转场对不上鼓点，导致视听割裂。

论文提出VeM: 以潜空间音乐扩散模型为主干，把视频先做"分层解析"再作为条件输入生成过程。