2021ICCV行人重识别文章精读之19.CM-NAS: Cross-Modality Neural Architecture Search for Visib

245 阅读2分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第34天,点击查看活动详情

论文--[1] Fu C ,  Hu Y ,  Wu X , et al. CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification[J].  In ICCV, 2021.

摘要

可见-红外行人重识别(VI-ReID)旨在匹配跨通道行人图像,突破黑暗环境下单一通道行人重识别的限制。为了缓解较大的模态差异的影响,现有的作品手工设计了各种双流架构,分别学习模态特定和模态共享的表示。但这种手工设计的流程,很大程度上依赖于大量的实验和经验实践,费时费力。在本文中,我们系统地研究了人工设计的体系结构,并确定适当地分离批归一化(BN)层是实现跨模态匹配的关键。在此基础上,我们的基本目标是找到每个BN层的最佳分离方案。为此,我们提出了一种新的方法,称为跨模态神经结构搜索(CMNAS)。它由一个面向bn的搜索空间组成,在这个搜索空间中,可以满足跨模态任务的标准优化。配备了搜索架构,我们的方法在两个基准测试中都优于最先进的同行,在SYSU-MM01上提高了6.70%/6.13%,在RegDB上提高了12.17%/11.23%。代码发布于github.com/ JDAI-CV/CM-NAS。

贡献

l 系统地分析了195种不同的人工设计的体系结构,并确定了分离BN层的意义。这一结论促使开发一种面向bn的搜索算法。

l 提出了一种新的CM-NAS算法,可以自动搜索BN层的最优分离方案,填补了NAS在跨通道匹配中的空白。

l 方法在两个基准测试中都显著超过了最先进的竞争对手,在SYSU-MM01上提高了6.70%/6.13%,在RegDB上提高了12.17%/11.23%

方法

1. 跨模态NAS(CM-NAS)

搜索空间。设计了一个面向bn的搜索空间,如图3所示。在我们的搜索空间中,所有的BN层在骨干网中被重构为可搜索单元,每个BN层有两个候选操作:使用单独的或共享的参数。如果BN层选择前者,该BN层将有两个单独的参数,分别从VIS和IR数据学习。否则,该BN层将共享从两种模式的数据学习的参数。

图片.png 目标函数。到目前为止,CM-NAS剩下的部分是设计一个合适的目标函数来更好地指导跨模态搜索过程。首先,类别特定的最大平均差异(Maximum Mean difference, cmmd)是一种常用的模态差异测量方法:

图片.png

实验

图片.png