计算机视觉清除产品目录错误技术解析本文介绍了一种基于计算机视觉的产品目录错误检测方法，通过多模态注意力机制结合产品图像和

使用计算机视觉清除产品目录错误

在某中心的商店中，产品页面通常包含产品变体的链接，这些变体在颜色、尺寸、款式等方面有所不同。然而，有时产品目录中会出现错误，导致链接到不相关的产品或出现重复列表，这可能影响客户的购物体验。

在今年冬季计算机视觉应用会议上，提出了一种自动识别产品变体列表错误的新方法，该方法使用计算机视觉来确定不同图像中描绘的产品是否相同或不同。

该方法将问题构建为度量学习问题，机器学习模型学习在嵌入空间中测量产品向量表示之间距离的函数。相同产品的嵌入应该相似，而不同产品的嵌入应该不同。由于学习到的特征嵌入通常具有很好的泛化能力，该模型可以应用于训练期间未见过的产品。

左上：正常变体列表；右上：错误列表（图像显示错误产品）；底部：重复变体（同一产品的两个独立详情页）

该模型是多模态的，其输入包括产品图像和产品标题。唯一的监督信号是包含所有变体的总体产品描述符。

在实验中，将该模型与类似的多模态基准模型进行比较，发现它将精确率-召回率曲线下面积（评估假阳性和假阴性之间权衡的指标）提高了5.2%。

模型有两个分支：一个全局分支和一个局部分支。全局网络以整个图像作为输入，基于产品标题确定要关注图像的哪个部分。该信息用于裁剪输入图像，裁剪后的图像传递到局部分支。

每个分支的主干是卷积神经网络，这是在计算机视觉中常用的一种网络类型，它将一系列相同的滤波器应用于图像表示的各个部分。

CNN提取的特征通过自注意力机制进行增强，以更好地捕捉空间依赖性。增强后的特征然后传递到空间和通道注意力层。空间注意力（即"关注哪里"）使用标题来关注图像的相关区域。通道注意力（即"关注什么"）强调图像表示的相关特征。

空间注意力和通道注意力都基于标题信息的自注意力嵌入，即根据其他单词权衡标题中每个单词的嵌入。

训练同时使用正例和负例。对于正例，简单地将相同总体产品描述符的实例配对。

为了使模型有效学习，负例必须具有挑战性：教导模型区分鞋子和花园耙子无助于区分相似类型的鞋子。因此对于负例，将同一子类别中的产品配对，这显著提高了性能。

为测试该方法，创建了一个包含三个不同产品类别的图像和标题的数据集。在实验中，使用仅图像模型和最近使用产品属性关注图像的多模态方法作为基线。

与仅图像模型相比，该方法将PR-AUC提高了高达17%。与多模态基准相比，改进为5.2%。

计算机视觉

注意力机制、WACV、卷积神经网络