2021ICCV行人重识别文章精读之15.BV-Person: A Large-scale Dataset for Bird-view Person Re-id

142 阅读4分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第34天,点击查看活动详情

论文--[1] Cheng Yan, Guansong Pang, Lei Wang, el. BV-Person: A Large-scale Dataset for Bird-view Person Re-identification[J]. In ICCV, 2021.

摘要

在本研究中,引入一个新的ReID任务——bird-view person ReID,该任务的目的是利用从鸟瞰图中获取的查询图像,即从上方物体的高架视图,在水平视图图像库中寻找一个人。这项任务很重要,因为有大量的视频监控摄像头从公共场所的高处捕捉人们。然而,这是一项具有挑战性的任务,因为(i)鸟瞰图提供的人的外貌信息有限,而且(ii)与水平视图中的人相比存在很大的差异。我们的目标是通过引入一个大规模的真实数据集来促进person ReID的开发。提出的数据集名为BV-Person,包含18k个身份的114k张图像,其中有近20k张来自7.4k个身份的鸟瞰视图。针对这一新的ReID任务,我们进一步引入了一个新的模型。我们进行了大规模的实验,以评估我们的模型和目前在BV-Person上的11个最先进的ReID模型,从多个角度建立性能基准。实证结果表明,我们的模型在所有来自BV-Person的5个数据集上都持续且显著地优于最新的模型。我们的模型在两个通用ReID数据集上也实现了最先进的性能。BV-Person数据集可以在git.io/BVPerson获得

贡献

l 引入了一个新的和关键的行人重识别任务,鸟瞰图识别,它的目的是通过多个摄像头重新识别人,使用从人的高处拍摄的查询图像。该任务在不同的领域有重要的应用,但由于人在正常视图和鸟视图下的差异很大,对当前的ReID模型提出了一些独特的挑战。

l 为鸟瞰ReID创建了第一个数据集,以促进和促进这一行模型的开发和评估。提议的数据集称为BVPerson

l 提出了一种新颖的多尺度交叉注意模型,该模型学习关注同一身份的不同图像从单一或两个视图共享的有区别的身体部位。所得到的模型从本质上减少了鸟瞰图和水平视图之间的特征差异。

方法

1. 动机****

(i)在鸟瞰图中,所有的物体都是从上到下拍摄的,因此与水平视图图像的外观有很大的不同,所以如何在这两种视图图像之间建立联系是一个主要的挑战。--提供交叉注意特征提取器来突出两种视图图像共享的一些重要身体部位

(ii)在鸟瞰图中,身份证者的头部和肩部覆盖了非常大的区域,而在水平图像中则是很小的区域。这里的挑战是如何保持这些小但重要区域的局部信息。--小区域的局部信息通常被前几个卷积层捕获,将低级信息纳入最终表示

(iii)在鸟瞰图中,身体的下半部分大多被上半部分“遮挡”,因此由此产生的挑战是如何学习头部和肩部的表征,以匹配整体图像。--在没有额外语义模型的情况下处理鸟瞰视图下的“遮挡”问题。

 

2. 模型

使用ResNet50作为骨干网络,提出一种新的网络层,称为交叉注意(CA),用于从水平视角和鸟瞰视角学习并平衡每个图片的注意力。

骨干网络

中使用了多尺度体系结构。然后,引入了一个新的多尺度注意(MA)层,以有效地将低级特征合并到高级特征映射。我们进一步引入特征重构(FR)层,将多尺度特征加权组合成一个具有可学习权的全局特征表示。最后,两个广泛使用的损失函数,即身份/分类损失和三元组损失,被用于优化三层端到端方式。在推理过程中,只使用全局特征表示进行检索。下面我们将详细介绍每一层。

图片.png

实验

图片.png

图片.png