2024/8/15 由悉尼大学计算机科学学院发布MuCR数据集 ,目的是评估视觉大型语言模型(VLLMs)在多模态因果推理任务中的能力,解决模型在视觉信息处理中的因果关系理解问题。
一、现在面临挑战
- 视觉提示下的因果推理能力评估:传统的大型语言模型(LLMs)在文本信息的因果推理上表现出色,但当只提供视觉提示,如动作、外观、服装和环境时,VLLMs是否仍能保持这种推理能力尚不清楚。
- 现有基准的局限性:现有的语言评估基准不足以评估最新VLLMs的高级视觉理解能力,特别是在多图像理解方面。
- 多图像理解的评估:尽管一些研究探索了通过视觉问题回答(VQA)进行的因果推理,但这些工作通常要求VLLMs从单个图像输入中提取视觉信息。VLLMs是否能够跨多个图像识别视觉线索进行因果推理是一个未被探索的领域。
- 缺乏多模态推理的评估:现有的多图像理解基准缺乏对VLLMs因果推理能力的评估,特别是缺乏涉及因果和效应问题的评估。
MuCR:为了促进视觉大型语言模型的研究和发展,提供一个全面的评估工具MuCR,主要评估VLLMs仅依赖视觉线索进行语义因果关系推断的能力。再结合MuCR数据集,数据集的创建涉及生成核心描述对,利用大型语言模型(LLMs)增强句子,并使用扩散模型生成因果图像对。志愿者为每对提供文本注释,包括提示短语和句子级描述,以评估VLLM的因果推理能力。
数据集地址:MuCR|人工智能数据集|因果推理数据集
二、让我们来一起看一下这个数据集:
MuCR :该数据集包含400对因果关系图像对,通过合成方法生成,涉及多种类别和风格。数据集的创建过程包括生成核心标题对、转换为上下文描述对以及创建图像和注释
-
多模态因果推理基准(MuCR):引入了一种新颖的基准,称为MuCR,旨在挑战视觉大型语言模型(VLLMs),使其仅基于视觉线索(如动作、外观、服装和环境)推断语义因果关系。该基准通过提示驱动的图像合成评估VLLMs的因果推理能力,以创建嵌入语义因果关系和视觉线索的孪生图像。
-
定制指标:本文从多个角度开发了定制指标,包括图像级匹配、短语级理解和句子级解释,以全面评估VLLMs在多模态因果推理中的理解能力。
-
分析与未来研究建议:本文进行了广泛的实验,以揭示当前最先进的VLLMs在多模态因果推理中的局限性。同时,进行了全面分析,以从不同角度理解这些模型的不足之处,并提出该领域未来研究的方向。
MuCR 基准构建过程:生成核心标题对、转换为上下文描述对以及创建图像和注释。
三、数据集的应用 :
场景1:智能工厂中的设备维护和故障预测
比如 我是一家大型制造工厂的负责人。工厂里有有很多的机器,每天都在不停地运转,生产各种零件。
如果一台机器出现了故障,要基于看到一些警告信号,比如机器运行的声音突然变大,或者温度传感器显示温度升高,但往往这些迹象被发现时,已经太晚了。机器可能已经损坏,需要紧急停机维修,这会导致生产延误,增加成本。
现在基于引入了多模态因果推理系统,就能够实时监控机器的传感器数据和运行日志。它不仅能看到机器的当前状态,还能分析过去的数据,学习机器在正常和异常状态下的表现。
比如,系统发现某个机器的振动数据开始出现异常模式,结合历史日志,它推理出这可能是轴承即将故障的迹象。在故障发生前,系统就会发出预警,告诉你:“看起来3号机器的轴承可能要出问题了,最好提前检查一下。”
这样,我就可以合理安排时间进行维护,避免突然停机。保持我的工厂生产的运作和效率。
场景2:智能农业中的精准灌溉和病害管理
比如 我是一个大型农场的农场主,我的农场有各种各样的植物。
以前,都是靠天吃饭,凭经验。比如每天固定时间给农作物浇水,或者看到土壤干了就浇水。至于病害,可能要等到作物出现了明显的生病迹象,我才会发现问题并采取措施。
现在我的农场用上了多模态因果推理技术。通过分析无人机拍摄的作物生长图像、土壤湿度和营养水平的数据,还有当地的气候信息。
比如系统发现某块区域的作物在图像中显示出了轻微的黄色斑点,结合土壤和气候数据,它推理出这可能是因为最近干旱,土壤缺乏某些营养导致的。系统会告诉我:“看起来西边那块地的作物可能缺水和缺铁了,需要特别关照一下。”
这样我就对西边那块地重点关注和处理,提高农作物的产量。这样可以节省一笔费用,出去玩了。
场景3:社交媒体内容审核
我是社交媒体平台的内容审核团队的一员。
在内容审核上,主要是我和同事检查文字和图片。如果遇到复杂的情境,比如一张图片中有人举着一个标志,而标志上的文字含糊不清,判断这张图片是否违规就变得非常困难。
现在 通过MuCR这样的评估工具来帮助我们。MuCR可以对VLLMs进行从图像到短语再到句子级别的综合评估。
比如,系统接收到了一张图片和一段文字描述。图片中有人举着一个标志,但标志上的文字看不清楚。文字描述是:“集会上,人们高举标语,表达他们的观点。” 传统的审核系统可能无法判断这是否违规,但MuCR可以:
- 图像级别:分析图片中的视觉元素,比如人群、标志的动作等,来推断场景的基本情况。
- 短语级别:分析文字描述中的关键词,比如“集会”、“高举标语”,来理解场景的上下文。
- 句子级别:综合图像和文字信息,生成对整个场景的解释,比如:“尽管标志上的文字不清楚,但从人们的手势和表情来看,这似乎是一个和平的抗议活动。”
通过这个系统,使得内容审核工作更加智能化和自动化,提高了我的工作效率,可以准时下班了。