ECCV 2022：亚马逊计算机视觉研究全景展示本文介绍了某机构在ECCV 2022会议上展示的十二项计算机视觉研究成果

某机构在ECCV 2022上展示了其计算机视觉研究的广度

研究主题从视觉异常检测到道路网络提取，从回归约束的神经架构搜索到视频表示的自监督学习。

会议

ECCV 2022

某机构对今年欧洲计算机视觉会议（ECCV）的贡献反映了其研究兴趣的多样性。以下是十二篇包含某机构作者在内的ECCV论文的主题和方法快速指南。

通过在线深度聚类进行细粒度时尚表示学习 Yang (Andrew) Jiao, Ning Xie, Yan Gao, Chien-Chih Wang, Yi Sun

时尚的特征由全局属性（如“裙长”）和局部属性（如“领口样式”）共同决定。对这些属性的准确表示对于时尚检索和时尚推荐等任务至关重要，但独立学习每个属性的表示会忽略属性间共享的视觉统计信息。因此，研究人员将表示学习视为一个多任务学习问题，在全局结构上施加聚类级别的约束。学习到的表示能大幅提升时尚检索的性能。

GLASS：用于场景文本定位的全局到局部注意力机制 Roi Ronen, Shahar Tsiper, Oron Anschel, Inbal Lavi, Amir Markovitz, R. Manmatha

现代文本定位模型将文本检测和识别结合到一个端到端框架中，这两个任务通常依赖于共享的全局特征图。然而，这类模型难以识别尺度变化（更小或更大的文本）和任意单词旋转角度的文本。研究人员提出了一种新颖的文本定位注意力机制，称为GLASS，它将全局和局部特征融合在一起。全局特征从共享主干网络中提取，而局部特征则分别在调整大小、高分辨率、正向旋转的单词裁剪图上单独计算。GLASS在多个公共基准测试上取得了最先进的结果，并且研究表明它可以集成到其他文本定位解决方案中，提升它们的性能。

大规模真实世界多人体跟踪 Bing Shuai, Alessandro Bergamo, Uta Buechler, Andrew Berneshawi, Alyssa Boden, Joseph Tighe

本文介绍了一个新的多人体跟踪数据集——PersonPath22，其规模比现有高质量多目标跟踪数据集大一个数量级以上。PersonPath22 数据集的来源特意提供了各种不同的条件，其标注包含丰富的元数据，允许从这些不同维度评估跟踪器的性能。其大规模的真实世界训练和测试数据使学术界能够更好地理解多人体跟踪系统在各种场景和条件下的性能。

MaCLR：基于运动感知的视频表示对比学习 Fanyi Xiao, Joseph Tighe, Davide Modolo

将自监督学习应用于视频的尝试取得了一些成功，但现有方法并未明确利用从时间序列中得出的运动信息，而运动信息对于有监督的动作识别任务至关重要。研究人员提出了一种自监督视频表示学习方法，该方法在训练期间显式地建模运动线索。该方法称为MaCLR，由视觉和运动两条路径组成，通过一种新颖的跨模态对比目标连接，使运动路径能够引导视觉路径关注相关的运动线索。

PSS：用于开放世界视觉表示学习的渐进式样本选择 Tianyue Cao, Yongxin Wang, Yifan Xing, Tianjun Xiao, Tong He, Zheng Zhang, Hao Zhou, Joseph Tighe

在计算机视觉中，开放世界表示学习是一个挑战，即学习训练期间未见过的图像类别的表示。现有方法做出了不现实的假设，例如预知未见图像所属的类别数量，或能够提前确定哪些未标记的训练样本属于未见类别。研究人员的新颖渐进式方法避免了此类假设，在每次迭代中选择高度同质但属于与当前已知类别距离较远的类别的未标记样本。通过对这些选定样本进行聚类生成的高质量伪标签，然后迭代地改进特征泛化能力。

瑞利特征方向：用于多维特征的非线性GAN潜空间遍历 Guha Balakrishnan, Raghudeep Gadde, Aleix Martinez, Pietro Perona

生成对抗网络可以将潜空间中的点映射到图像，产生极其逼真的合成数据。过去控制生成对抗网络输出的尝试旨在寻找潜空间中近似对应于特定图像特征连续变化的线性轨迹。研究人员提出了一种在潜空间中寻找非线性轨迹的新方法，提供了对生成对抗网络输出的前所未有的控制，包括能够在改变其他特征的同时保持指定图像特征不变。

在多领域基准上重新思考少样本目标检测 Kibok Lee, Hao Yang, Satyaki Chakraborty, Zhaowei Cai, Gurumurthy Swaminathan, Avinash Ravichandran, Onkar Dabeer

大多数现有的少样本目标检测工作都集中在预训练和少样本学习数据集来自相似领域的环境下。研究人员提出了一个多领域少样本目标检测基准，包含来自广泛领域的10个数据集，用于在更多样的应用中评估少样本目标检测算法。他们全面分析了冻结层、不同架构和不同预训练数据集对少样本目标检测性能的影响，得出了几个令人惊讶的结论。其中之一是，与先前的看法相反，在多领域基准上，微调是少样本目标检测的一个强基线。

“找不同”：用于异常检测和分割的自监督预训练 Yang Zou, Jongheon Jeong, Latha Pemula, Dongqing Zhang, Onkar Dabeer

视觉异常检测常用于工业质量检测。本文介绍了一个新的数据集和一种新的自监督学习方法，用于ImageNet预训练，以改善在1类和2类 5/10/高样本训练设置下的异常检测和分割。视觉异常数据集由10,821张高分辨率彩色图像（9,621张正常样本和1,200张异常样本）组成，覆盖了三个领域的12个物体，使其成为迄今为止最大的工业异常检测数据集之一。本文还提出了一个新的自监督框架——SPD，它可以规范对比自监督和监督预训练，以更好地处理异常检测任务。

TD-Road：基于整体图构建的自顶向下道路网络提取 Yang He, Ravi Garg, Amber Roy Chowdhury

从卫星图像中提取道路网络对于构建丰富的地图和实现路线规划与导航中的众多应用至关重要。以往基于图的方法采用自底向上的方法，估计局部信息并迭代地扩展图。相比之下，本文提出了一种自顶向下的方法，将问题分解为两个子任务：关键点预测和连通性预测。与以往方法不同，所提出的方法将图结构作为深度神经网络的训练监督信息，并通过推理直接生成道路图输出。

面向多样化计算平台的无回归神经网络 Rahul Duggal, Hao Zhou, Shuo Yang, Jun Fang, Yuanjun Xiong, Wei Xia

商业机器学习模型不断更新，虽然更新后的模型可能在平均性能上有所提升，但它仍然可能在之前处理正确的特定输入上出现退化。本文介绍了回归约束神经架构搜索，它包含两个组成部分：(1) 一种新颖的架构约束，使得较大的模型能够包含较小模型的所有权重，从而最大化权重共享；(2) 一种新颖的搜索奖励，将top-1准确率和负向翻转都纳入架构搜索指标中。与现有的最先进方法相比，REG-NAS 能够将负向翻转减少33%到48%。

人脸识别中的无监督和半监督偏差基准测试 Alexandra Chouldechova, Siqi Deng, Yongxin Wang, Wei Xia, Pietro Perona

本文介绍了用于人脸识别的半监督性能评估，这是一种在身份标签不可用或不完整时评估人脸验证系统性能和算法偏差的统计方法。该方法基于对人脸嵌入相似度分数的参数贝叶斯建模，产生点估计、性能曲线和反映估计过程不确定性的置信区间。实验表明，SPE-FR 能够准确评估无身份标签数据的性能，并自信地揭示系统性能中的人口统计学偏差。

X-DETR：用于实例级视觉-语言任务的多功能架构 Zhaowei Cai, Gukyeong Kwon, Avinash Ravichandran, Erhan Bas, Zhuowen Tu, Rahul Bhotika, Stefano Soatto

本文解决了实例级视觉-语言任务的挑战，这类任务需要自由形式的语言与图像中的对象对齐，而不是与整个图像对齐。本文介绍了 X-DETR 模型，其架构包含三个主要组件：一个目标检测器、一个语言编码器和一个视觉-语言对齐模块。视觉和语言流在最后才独立，并通过高效的点积操作进行对齐。这种简单的架构在多个实例级视觉-语言任务上展现出良好的准确性和快速的速度，例如开放词汇目标检测。

研究领域

计算机视觉

标签

数据表示，数据集开发，自监督学习，欧洲计算机视觉会议FINISHED