多模态指代消解模型技术解析本文详细介绍了一种获奖的多模态指代消解模型，该模型结合图神经网络和视觉语言表示，能够准确理解用

多模态指代消解挑战赛获胜模型

带屏幕的语音设备日益普及，为多模态交互创造了新机会。用户可通过口语指代屏幕上的项目，更高效地传达意图。利用自然语言理解选择屏幕上正确对象的任务被称为多模态指代消解。

屏幕对象可通过视觉属性（"红色外套"）、绝对位置（"右边第二个"）或相对位置（"黑色外套旁边"）描述，也可通过对话历史或元数据（"之前提到的"或"某品牌外套"）进行指代。

该模型基于视觉语言BERT（VL-BERT），通过对文本和图像对进行训练。模型采用典型的BERT掩码语言模型训练方法，输入中的某些方面（句子单词或图像区域）被掩码，模型必须学会预测它们。

我们对这种方法进行了三个主要改进：

利用场景中对象的相对位置，模型生成一个图，节点代表对象，边描述场景中对象间关系。边编码五种关系类型：上、下、左、右和内部关系。图然后传递给图神经网络（特别是图卷积网络），为每个节点生成嵌入，捕获图中节点邻域信息。

为解析如"柜台上的那个"这类指代，我们通过两种方式捕获对象的局部环境信息：

首先，在对象周围八个方向生成新框，编码这些框内图像区域的视觉特征，并将其附加到指代消解模型的视觉输入流中。

其次，在模型训练期间，使用图像标题生成模型描述感兴趣对象附近的其他对象（如架子、桌子、架子等），使模型能够基于周围上下文描述识别对象。

结合这些改进与对话轮次距离度量，我们的模型在DSTC10多模态指代消解挑战赛中取得第一名，性能通过同时考虑假阳性和假阴性的F1分数衡量。

这项技术有望改善带屏幕的语音助手用户体验，使用户更轻松地表达意图。