开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第2天,点击查看活动详情
论文--Fu D , Chen D , Yang H , et al. Large-Scale Pre-training for Person Re-identification with Noisy Labels[C]. In CVPR, 2022.
原文摘要
本文旨在解决带噪声标签的行人重识别(Re-ID)的预训练问题。为了设置预训练任务,对现有的无标记Re-ID数据集“LUPerson”的原始视频应用了一个简单的在线多目标跟踪系统,并构建了称为“LUPerson- NL”的噪声标记变体。由于这些由轨迹小波自动生成的ID标签不可避免地包含噪声,利用噪声标签开发了一个大规模的预训练框架,该框架由三个学习模块组成:有监督的Re-ID学习、基于原型的对比学习和标签引导的对比学习。从原理上讲,这三个模块的联合学习不仅可以将相似的样本聚类到一个原型上,还可以根据原型的分配对噪声标签进行校正。本文证明了直接从原始视频中学习是一种很有前途的预训练替代方法,它利用空间和时间相关性作为弱监督。这个简单的预训练任务提供了一种可扩展的方法,可以在“LUPerson-NL”上从零开始学习SOTA Re-ID表示,无需附加功能。例如,通过应用相同的有监督的Re-ID方法MGN,本文的预训练模型在CUHK03、DukeMTMC和MSMT17上的mAP比无监督的预训练模型分别提高了5.7%、2.2%、2.3%。在小范围或少镜头设置下,性能增益更显著,表明学习表示具有更好的可移植性
摘要解读
和昨日发布的论文精读笔记相比较,这两篇论文都从预训练模型的角度出发,从特征提取的角度进行优化。这篇在resnet上进行改进,上一篇为transformer
贡献
从视频ReID数据集LUPerson中创建一个LUPerson-NL,用于带有噪声标签的预训练,21K个场景的1000万张人像,带有大概430K个身份的噪声标签
提出了针对ReID噪声标签引导预训练,将监督学习,基于原型的对比学习,标签引导的对比学习和噪声标签校正整合到一个统一的框架中
方法
给定一个输入的人物图像xi,首先执行两个随机选择的增强(T,T′),生成两个增强图像(xi,x′i)。将其中的一个∧xi输入编码器Eq以获得查询特征qi;而另一个编码器∆x′i被送入另一个编码Ek以获得关键特征ki。将Ek设计为Eq的动量版本,即两个编码器Ek和Eq共享相同的网络结构,但具有不同的权重。Ek中的权重是等式中权重的指数移动平均值。在训练期间,Ek的权重通过等式中的动量更新进行刷新。
包括一个监督分类模块、一个基于原型的对比学习模块和一个标签引导的对比学习模型。
实验
这个预训练的模型加载进有监督学习和无监督学习的网络中,均有提升
自行实验结论
本文训练出来的模型和标准的resnet50相比,差了最后两个层的参数。