SynopGround数据集:由中山大学、腾讯PCG ARC 实验室联合发布,一个用于电视剧和剧情概要的多段落视频定位的大规模数据集

84 阅读4分钟

2024/8/8,SynopGround数据集由中山大学、腾讯PCG ARC 实验室联合发布大规模多段落视频定位数据集,基于新的视频定位任务和相应的基线方法,有助于推动视频-语言多模态理解领域的发展。

一、目前遇到挑战

常用的数据集是基于短视频和短句查询,简短的文本查询容易导致语义上的歧义,比如多个视频片段可能与同一个查询相对应。现在的基准测试主要集中在描述低级别可见活动的语言查询上,会忽略复杂事件和抽象概念的重要性。

SynopGround是一个大规模的数据集,开启了一种新的研究方向,叫做多段落视频定位。这个研究是关于怎么在很长的视频里,根据一些详细的段落文字描述找到对应的画面。

数据集地址:SynopGround|视频内容分析数据集|视频编辑数据集

二、让我们来看一下SynopGround数据集

SynopGround数据集:包含超过 2800小时热门电视剧视频,每段视频都配有专业的人工写的概要。这些概要都是根据视频内容精确标注了开始和结束的时间点,就像给每个概要段落都加上了时间标签。平均每个查询有大约100个词,每个视频大约有43分钟长。

基于该数据集,引入了一种具有挑战性的多段落视频接地(MPVG)任务,要求模型能够理解多个相关联的文本段落,并在长视频中定位它们对应的时间区间。并提出了一种新的局部-全球多模态推理器(LGMR)基线。

三、让我们一起展望数据集的应用:

1、电视剧后期制作中

假设《鸡毛飞上天》的后期制作团队,需要突出主角陈江河的创业历程,但是,由于这部剧有55集,涵盖了很多不同的情节和时间线,要从中找到所有与陈江河创业相关的片段,就像在一堆杂乱的鸡毛中找到那些能做成毽子的漂亮羽毛一样困难。

这时候,如果使用了基于SynopGround数据集的AI视频定位系统,整个过程就会变得简单多了。

比如:

我想要一个片段,展示陈江河第一次有创业想法的时候。

传统上,可能需要手动观看每一集,寻找那个瞬间。

但现在,只需要把这个要求输入到AI系统中,系统就会自动搜索并定位到那个具体的片段。

比如:

想要陈江河创业过程中的高潮和低谷。输入找出陈江河事业达到顶峰和遭遇失败的所有关键时刻。

AI系统会识别出这些情感高潮和低谷的场景,帮助我们更准确地把握故事节奏。

总之通过SynopGround数据集训练的AI,它能够理解剧情概要,快速定位到关键片段,节省了大量的时间和精力。这样可以把更多的精力放在创意和艺术表达上,而不是花费在繁琐的素材查找上。

2、视频问答系统

比如和朋友讨论《简爱》这部电影,对电影中的某些情节记得不是很清楚。

如果有一个视频问答系统,就可以轻松解决这个问题。

比如: 电影里简爱在桑菲尔德府第一次见到罗切斯特先生的场景,那是在电影的哪个部分啊?

系统就会在电影中搜索并告诉你:在电影的第30分钟左右,简爱在桑菲尔德府的庭院里第一次遇到了罗切斯特先生。

比如: 电影里简爱在婚礼上发现罗切斯特先生的秘密是在哪一段

系统回应:在电影的第90分钟,简爱在婚礼进行时发现了罗切斯特先生的秘密,导致婚礼中断。

可以看到视频问答系统就像是我们的个人电影百科全书,能够快速帮你找到电影中那些特别或者重要的片段,让讨论和回忆变得更加生动和准确。

开源数据集网站,请打开:遇见数据集

www.selectdataset.com/