MMTrail数据集:由香港科技大学和北京大学联合发布一个大规模的多模态视频语言数据集,融合了上下文、视觉框架和背景音乐。

112 阅读2分钟

2024/8/6 ,由香港科技大学和北京大学联合发布更新多模态视觉-音频数据集。

人工智能驱动的电影和拍摄的视频制作在人们的日常生活中有着广泛的应用。得益于各种大规模视频语言数据集的开发,已经开发了许多生成式多模态大型语言模型来实现这一目标。

一、遇到的挑战

现有的视频语言数据集通常侧重于基于视觉的文本描述。而忽视了固有的视觉-音频依赖性的重要性,导致每种模态中的注释单调乏味,而不是全面和精确的描述。这会导致了多种跨模式研究的困难。

数据集地址:MMTrail|多模态数据数据集|视频内容理解数据集

二、让我们一起看一下MMTrail数据集:

MMTrail:一个大规模的多模态视频语言数据集。

数据收集和处理过程

超过2000万个带有视觉字幕的预告片剪辑 和 200万个带有多模态字幕的高质量剪辑。

剪辑统计信息:评估分数包括OCR分数、视频时长、光流分数、剪辑时长、图像质量和美学分数

预告片预览了完整的视频作品,并集成了上下文、视觉框架和背景音乐。

预告片有两个主要优点:

(1)主题多样化,内容角色类型多样,例如电影、新闻和游戏。

(2)对应的背景音乐是定制设计的,使其与视觉背景更加连贯。

基于这些见解,我们提出了一个系统的字幕框架,通过超过 27.1k 小时的预告片视频实现各种模态注释。

在这里,为了确保字幕保留音乐视角,同时保留视觉上下文的权威性,我们利用高级LLM功能自适应地合并所有注释

三、让我们一起展望数据集的应用:

普通人想要制作一部科幻大片制作预告片,想要创造一种紧张又神秘的氛围。

首先,我们先用SD 生成一些画面:比如太空船在星空中飞行、机器人战斗的场景,这就是我们原始视频的素材。

如果想让这些片段更加吸引人——视频内容生成。把视频素材和我们想要的背景音乐放入一个超级智能的AI系统里,这个系统就是基于MMTrail数据集训练出来的。

当它开始工作的时候,它不仅理解了视频里的每个场景,还能感受到背景音乐的节奏和情感。就可以创造一些全新的视频片段。

开源数据集网站,请打开:遇见数据集

www.selectdataset.com/