推进实例级识别研究

836 阅读6分钟

视频地址:推进实例级识别研究

实例级识别 (ILR) 是识别对象特定实例的计算机视觉任务,而不仅仅是它所属的类别。例如,我们感兴趣的不是将图像标记为“后印象派绘画”,而是像“文森特梵高的罗纳河上的星夜”或“凯旋门,巴黎,法国”,而不是简单的“拱门”。实例级识别问题存在于许多领域,例如地标、艺术品、产品或徽标,并且在视觉搜索应用程序、个人照片组织、购物等中都有应用。在过去的几年里,谷歌一直在通过谷歌地标数据集为ILR 的研究做出贡献,Google Landmarks Dataset v2 (GLDv2),以及DELF和Detect-to-Retrieve等新颖模型。

今天,我们强调从一些成果实例级别识别研讨会在ECCV’20。研讨会汇集了该领域的专家和爱好者,进行了许多富有成果的讨论,其中包括我们的 ECCV’20 论文“深度局部和全局特征”(DELG),一个最先进的图像特征模型——级别识别,以及支持DELG 和其他相关 ILR 技术的开源代码库。还介绍了基于 GLDv2 的两个新的里程碑式挑战(关于识别和检索任务),以及扩展到其他领域的未来 ILR 挑战:艺术品识别和产品检索. 研讨会的长期目标和挑战是通过统一来自不同领域的研究工作流来促进 ILR 领域的进步并推动最先进的技术,迄今为止这些工作流大多作为单独的问题来解决。

DELG:深度局部和全局特征

有效的图像表示是解决实例级识别问题所需的关键组件。通常,需要两种类型的表示:全局和局部图像特征。全局特征总结了图像的全部内容,导致紧凑的表示,但丢弃了关于视觉元素的空间排列的信息,这些信息可能是独特示例的特征。另一方面,局部特征包括关于特定图像区域的描述符和几何信息;它们对于匹配描绘相同对象的图像特别有用。

目前,大多数依赖这两种特征的系统需要使用不同的模型分别采用它们中的每一种,这导致冗余计算并降低整体效率。为了解决这个问题,我们提出了 DELG,一种用于局部和全局图像特征的统一模型。

DELG 模型利用具有两个不同头的全卷积神经网络:一个用于全局特征,另一个用于局部特征。全局特征是使用深度网络层的池化特征图获得的,它实际上总结了输入图像的显着特征,使模型对输入的细微变化更加鲁棒。局部特征分支利用中间特征图在注意力模块的帮助下检测显着图像区域,并以有区别的方式产生表示相关局部内容的描述符。

这种新颖的设计允许有效的推理,因为它可以在单个模型中提取全局和局部特征。我们第一次证明了这样一个统一的模型可以进行端到端的训练,并为实例级识别任务提供最先进的结果。与之前的全局特征相比,该方法的平均平均精度比其他方法高 7.5%;对于局部特征重新排序阶段,基于 DELG 的结果比以前的工作好 7%。总体而言,DELG 在 GLDv2 的识别任务上实现了 61.2% 的平均精度,除了2019 年挑战赛的两种方法外,其表现均优于其他所有方法。请注意,该挑战中的所有顶级方法都使用了复杂的模型集成,而我们的结果仅使用了一个模型。

Tensorflow 2 开源代码库

为了促进研究的可重复性,我们还发布了一个经过改进的开源代码库,其中包括 DELG 和其他与实例级识别相关的技术,例如DELF和Detect-to-Retrieve。我们的代码采用最新的Tensorflow 2版本,除了图像检索和匹配功能外,还为模型训练和推理提供了可用的参考实现。我们邀请社区使用该代码库并为其做出贡献,以便为 ILR 领域的研究奠定坚实的基础。

实例级识别的新挑战

专注于地标领域,谷歌地标数据集 v2 (GLDv2) 是最大的实例级识别可用数据集,拥有 500 万张图像,跨越 20 万个类别。通过在该数据集上训练地标检索模型,与在早期数据集上训练的模型相比,我们已经证明平均精度提高了 6%。我们最近还推出了一个新的浏览器界面,用于直观地探索 GLDv2 数据集。

今年,我们还在地标领域推出了两项新的挑战,一个侧重于识别,另一个侧重于检索。这些比赛采用新收集的测试集和新的评估方法:参赛者不必上传带有预先计算预测的 CSV 文件,而是必须提交在 Kaggle 服务器上运行的模型和代码,以计算预测,然后进行评分和排名. 此环境的计算限制将重点放在高效实用的解决方案上。

挑战吸引了超过1200支球队,3 X比去年同期增加,以及参加过我们强大DELG基线取得显著的改善。在识别任务上,得分最高的提交平均精度得分相对提高了 43%,在检索任务上,获胜团队的平均平均精度得分相对提高了 59%。后一个结果是通过更有效的神经网络、池化方法和训练协议的组合实现的(请参阅Kaggle 比赛网站上的更多详细信息)。

除了具有里程碑意义的识别和检索挑战之外,我们的学术和工业合作者还讨论了他们在其他领域开发基准和竞赛的进展。一个用于艺术品识别的大规模研究基准正在建设中,利用The Met的开放获取图像集,以及一个新的测试集,其中包含展示各种光度和几何变化的客人照片。同样,一个新的大规模产品检索竞争将捕捉各种具有挑战性的方面,包括大量产品、长尾类分布以及对象外观和上下文的变化。

更新说明:优先更新博客,后更新微信公众号“雨夜的博客”,之后才会陆续分发到各个平台,如果先提前了解更多,请关注“雨夜的博客”。

博客来源:雨夜的博客