图像描述的快与慢:量化人类视觉语言处理信号差异

11 阅读1分钟

图像描述的快与慢:量化与预测视觉语言过程中人类信号的变化

图像属性与人类在描述图像时的行为之间存在复杂的关系。这种行为表现出丰富的变化,体现在诸如眼动以及人类开始描述图像的时间等信号中。尽管这种视觉语言变化信号极具价值,但在当前预训练模型的训练中却几乎被忽视,这促使我们进行更深入的探究。

本研究使用一个包含同步采集的眼动追踪数据的荷兰语图像描述语料库,探索了视觉语言信号变化的本质,并发现这些信号彼此相关。基于此结果,我们假设这种变化部分源于图像本身的属性,进而探索由预训练视觉编码器编码的图像表示能否捕捉这种变化。我们的结果表明,预训练模型在某种程度上(从微弱到中等程度)可以做到这一点,这表明这些模型缺乏对人类而言什么使得刺激变得复杂、以及什么导致了人类输出变化的认知偏差。