开放词汇多目标追踪框架SLAck: 联合语义、位置和外观感知的启发式跟踪

44 阅读15分钟

开放词汇多目标追踪框架SLAck: 联合语义、位置和外观感知的启发式跟踪

Abstract

开放词汇的多目标跟踪(MOT)旨在让跟踪器能够泛化到训练集中不存在的新类别。目前,表现最好的方法主要基于纯外观匹配。由于在大词汇量场景中运动模式的复杂性以及对新物体不稳定的分类,现有方法在最终匹配步骤中要么忽略了运动和语义线索,要么基于启发式方法应用。在本文中,我们提出了一个统一框架 SLAck,在关联的早期步骤中联合考虑语义、位置和外观先验,并通过轻量级的时空物体图学习如何整合所有有价值的信息。我们的方法消除了复杂的后处理启发式方法,大幅提升了大规模开放词汇跟踪的关联性能。无需繁琐的附加技术,我们在开放词汇 MOT 和 TAO TETA 基准上超越了之前的最新方法。
代码地址:github.com/siyuanliii/SLAck

 欢迎加入自动驾驶实战群

图片

Introduction

多目标跟踪(MOT)传统上局限于有限的词汇,专注于如行人和车辆等类别。然而,开放词汇跟踪的出现扩展了跟踪的视野,涵盖了更多类别,但也增加了挑战,因为不同类别的物体在外观、行为和运动模式上各不相同。尽管如此,开发此类跟踪系统具有重大意义。从自动驾驶到增强现实的现实应用中,跟踪器需要超越这些词汇限制,以实现更广泛和多功能的功能。

目前,针对大词汇量跟踪的最佳 MOT 方法基于纯外观匹配。基于运动的 MOT 面临重大挑战,因为现有的运动跟踪方法依赖于卡尔曼滤波器(KF)。KF 方法依赖线性运动假设,在如行人或车辆数据集的情况下有效,但在复杂的开放词汇场景中,由于非线性物体运动和多种运动模式,这种假设失效。

图片

图片

Method

我们首先回顾了常用的多目标追踪(MOT)方法,这些方法利用了语义、运动、外观和混合线索,并探讨了它们在开放词汇追踪中直接使用时的失败之处。

图片

3.1 预备知识:MOT的各种线索

语义线索
图3总结了不同方法如何在之前的MOT文献中利用语义线索。语义线索通常在多类别MOT中扮演次要角色,通常作为一种硬分组手段,追踪器通过检测器预测将相同类别的物体关联起来。这种方法在简单任务(如在KITTI和nuScenes数据集中跟踪人类和车辆)中效果显著。然而,在开放词汇追踪中,由于分类不可靠,这种策略效果不佳,如图2所示。依赖这种不确定的分类会损害追踪性能。TETer提出使用对比类样本编码进行语义比较,摆脱硬分组,转向更可靠的软分组。然而,该方法仍将语义信息 relegated 到后期的启发式关联阶段。与之相反,我们主张在关联过程中早期整合语义线索,利用其信息潜力来增强学习和关联准确性。

图片

运动线索
大多数基于运动的MOT方法,,依赖于卡尔曼滤波器(KF)的线性运动假设。然而,开放环境的动态特性(如摄像机角度变化、快速物体运动和跨类别的多样化运动模式)对线性运动模型的有效性提出了挑战。这种复杂性不仅在图1中得到了定性证明,还通过表4中的SORT基础追踪器表现不佳得到了定量验证。尽管存在这些挑战,物体运动仍然是追踪的重要线索,因为即使在非线性运动中,空间结构和邻近关系通常保持一致。
为此,我们引入了一种利用隐式运动建模的方法,通过建立物体之间的空间和时间关系,特别是我们将每个物体的位置和形状映射到特征空间中,通过注意力机制在帧内和帧间进行交互。这一过程促进了物体位置信息的交换,增强了运动表示能力,而不依赖于显式的线性假设。

外观线索

基于外观的方法在开放词汇追踪中占主导地位,使用外观嵌入。这些嵌入是从检测器中添加的头部得出的,通常在静态图像上训练或通过对比学习的方式进行视频对的训练,是在各种追踪场景中关联的关键。然而,单靠外观容易引发问题,如遮挡敏感性,并且需要大量数据来学习稳健的匹配,往往导致过拟合到基础类别。我们在特征匹配过程中早期将外观与语义信息整合在一起,利用语义的高层次上下文信息,同时让外观头部专注于低层次细节,从而使我们能够在各种条件下学习到更具普遍性的特征。

混合线索
像JDE、FairMOT、DeepSORT和ByteTrack等方法同时利用外观和运动线索,其中运动通过卡尔曼滤波器建模,外观则通过专用的re-id网络或与检测特征共同提取。这些线索的融合发生在最终匹配步骤,通过空间邻近矩阵(来自IoU)和外观相似矩阵(通过点积或余弦相似度)结合,并通过启发式方法进行匈牙利匹配。
我们的方法与之不同,在早期就整合所有有价值的信息,最终形成一个单一的匹配矩阵。早期融合避免了启发式的复杂性,并增强了泛化能力,特别是在新类别上。

3.2 方法概述

我们的方法建立在预训练的开放或大词汇检测器之上,并对其进行扩展以实现追踪。我们直接从检测器中提取所有信息,如语义、位置和外观。然后,我们将这些线索与一个时空对象图结合,以推理关联分配。我们的流程简单且端到端,无需额外的启发式方法来混合不同的线索。模型通过差分Sinkhorn-Knopp算法输出一个分配矩阵。此外,为了处理TAO数据集中不完整的标注,我们直接使用预测的检测框和TAO的稀疏标注作为关联学习的输入。我们称这种策略为检测感知训练(Detection Aware Training)。我们在图4中展示了整体流程。

3.3 提取语义、位置和外观线索

我们从预训练的检测器中提取语义、位置和外观线索。最近,许多强大的目标检测器已被提出用于通用目标检测。为了确保公平性,我们基于中用于开放和大词汇追踪的相同检测器构建我们的追踪器。重要的是,在我们的关联过程中,我们冻结了所有检测器组件,以保持原有的强大开放词汇检测能力。我们在下文中详细描述了语义、位置和外观头部。

语义头部
对于开放词汇追踪,我们需要在不重新训练的情况下配置我们感兴趣的类别。我们使用了与OVTrack相同的检测器。直接使用CLIP编码器获取语义线索会带来较高的推理成本。因此,语义线索来自经过调整的RCNN分类头,该分类头从CLIP文本编码器中提取。基于这个CLIP对齐的分类头输出的嵌入,我们添加了一个五层MLP,将语义特征投影为最终的语义嵌入E_sem。对于闭集设置,我们使用TETer的检测器,并使用它们的CEM编码作为语义头的输入。

位置头部
位置头部从检测器的边界框头部获取输出,并将其投影到特征空间中。然后,边界框坐标相对于图像尺寸进行了归一化,以确保尺度不变性。

Experiment

4.1 评估指标按 的方法

我们使用 TETA 指标来进行大规模多类别多目标跟踪的评估。TETA 将 MOT 评估分为三个子因素:定位(LocA)、关联(AssocA)和分类(ClsA)。此外,TETA 支持不完整标注的评估,从而为开放词汇 MOT [19] 提供更准确的跟踪测量。

4.2 基准测试
我们使用 TAO 数据集 来评估我们的方法,这是唯一一个大规模开放词汇 MOT 数据集。TAO 数据集包含超过800个类别,因其类别多样性成为迄今为止最全面的 MOT 数据集。它包括500个、988个和1,419个40秒标注视频,分别覆盖训练集、验证集和测试集。TAO 提供了各种基准测试,强调了不同的特征和需求。我们仅使用 TAO 训练集进行训练。
开放词汇 MOT 这一基准测试挑战跟踪器在未对其标注进行训练的情况下,对新类别进行泛化。TAO 遵循 LVIS  的分类法,这意味着基础类别和新类别的划分与已建立的开放词汇检测协议 一致,将频繁和常见类别指定为基础类别,而稀有类别则指定为新类别。这种设置反映了跟踪器在现实世界中遇到不常见类别的情况,测试其在跟踪罕见物体时的适应性和稳定性。TAO TETA TAO TETA 基准测试是一个闭集 MOT 挑战,允许对 TAO 中所有类别标注进行训练。它注重关联质量,奖励生成精确轨迹且没有重叠的跟踪器。

4.3 实现细节
我们的模型 SLAck-OV 构建于预训练的开放和大词汇检测器之上。对于开放词汇 MOT,我们采用与 OVTrack  相同的 Faster R-CNN 检测器,使用在 LVIS 基础类别上训练的 ResNet-50主干网络。对于闭集的 TAO TETA 基准测试,我们采用带有类别示例头的 Faster R-CNN 检测器,类似于 TETer 。SLAck-T 和 SLAck-L 的变体分别使用 Swin-Tiny 和 Swin-Large 主干网络。训练图像随机调整大小,保持长宽比,短边在640到800像素之间。选择相邻帧对(最大间隔为3秒)进行训练。进一步的细节见附录。

图片

4.4 消融实验
我们提供了全面的消融实验,以验证我们提出的模型和训练策略的有效性。如果未特别说明,消融表格报告开放词汇 MOT 基准测试上的新类跟踪性能。
语义感知匹配的有效性 之前,MOT 方法在很大程度上忽略了语义线索。关联是通过使用运动或外观线索完成的。我们验证了语义信息在大规模开放词汇跟踪中特别是对新类别的重要性。我们还将纯基于运动的 OC-SORT 和纯基于外观的 OVTrack作为基准,便于比较。表1显示了结果。我们仅使用位置线索的模型(Lck)模拟了仅基于位置线索进行关联的运动跟踪器。加入语义信息后,关联性能显著提升,AssocA 提高了+7.1。这表明语义和位置或运动线索的结合可以有效提高新类别的跟踪性能。我们通过语义感知运动跟踪器(SLck),已在 AssocA 上超越了基于外观的最先进方法 OVTrack +1.8。这进一步证明了我们假设的语义和运动模式高度相关。在基础类别上学习的运动模式可以有效迁移到未见过但语义上相似的新类别,从而提高跟踪器的泛化能力。将语义线索加入基于外观的匹配(SAck)与仅使用外观方法(Ack)相比,也提高了 AssocA +2.4。最后,将语义线索加入同时包含运动和外观线索的混合跟踪器(LAck),还进一步提升了 AssocA +1.4。这证明了将语义线索纳入关联的重要性。
DAT 的有效性 我们评估了我们提出的检测感知训练(DAT)策略的有效性。表2显示,与直接使用稀疏和不完整的 GroundTruth 训练相比,使用 DAT 训练的关联性能显著提高了 (+13.7 AssocA)。DAT 利用了稀疏监督,同时通过使用所有预测的边界框进行训练,模拟了推理训练,这显著消除了训练和推理之间的差距。
利用语义线索的不同方式的比较 我们在 TAO TETA 基准测试上对现有利用语义线索的方法进行了基准测试。我们基于 TETer-T 进行了这些实验。我们的研究表明,传统的硬分组,即将具有相同预测类别标签的物体关联在一起,性能显著下降,AssocA 下降了-4.6。这一下降归因于在大词汇表中类别预测的不稳定性,硬分类约束会损害整体的跟踪精度。相反,基于特征相似性对语义相似的物体进行软分组,取决于所使用的特征,提供了不同的性能改进。使用 LVIS 上训练的对比语义特征 CEM 编码,软分组在 AssocA 上相比无语义基准提高了+1.5。然而,使用 BERT 编码则降低了性能。我们将语义感知匹配(Ours-SAck)加入 TETer-T,通过在 STOG 关联过程中直接集成 CEM 编码和外观特征,消除了后期分组或门控机制。这种方法带来了显著的改进,超过了无语义基准 +2.8,并且比 CEM 软分组高出 +1.3 AssocA。这一提升强调了我们语义感知匹配策略在利用语义信息进行大词汇跟踪中的有效性。
仅依靠语义线索是否足够进行跟踪?如表5所示,我们还检查了仅依靠语义线索是否包含足够可区分的外观信息以用于跟踪。与仅使用外观线索(Ack-STOG)相比,使用纯语义线索(Sck-STOG)关联准确率显著下降 -4.4 AssocA。这表明尽管语义线索包含实例的外观信息,但其区分度并不如任务特定的外观特征。
STOG 的有效性 我们评估了空间(SOG)和时间(TOG)对象图对使用不同线索的跟踪器的影响:语义(Sck)、位置(Lck)、外观(Ack)和组合(SLAck)。表5比较了有无 SOG 和 TOG 的跟踪器。Ind 表示没有使用 STOG。它使用简单的 MLP 和加法来获得最终的跟踪特征。表5中的结果表明,TOG 对语义线索(+2.4 AssocA)或位置线索(+4.1 AssocA)很重要。TOG 提供了有关后续帧中存在哪些物体的洞察,从而优化了特征以获得更好的关联。例如,基于位置的跟踪器可以预测潜在的物体移动,而基于语义的跟踪器可以根据时间信息优化语义编码。基于外观的跟踪器从 SOG 中受益更多(相比 TOG 的+0.3,SOG 提高了+0.9 AssocA)。SOG 促进了对共定位物体外观的感知,鼓励特征差异化以提高关联准确率。当所有三种线索与 SOG 和 TOG(STOG)集成时,我们观察到关联性能显著提升(+3.7 AssocA)。这突显了 STOG 与多种跟踪线索的协同效应,显著提高了关联准确率。

图片

4.5 与最新技术的比较

开放词汇 MOT 表4展示了我们对开放词汇 MOT 的验证集和测试集的评估。为保持可比性,我们在所有方法中都使用了 ResNet-50 主干网络。QDTrack 和 TETer 作为闭集基准,使用所有可用类别进行训练。竞争方法通过结合 ByteTrack、OC-SORT 和 MASA 等现成的跟踪器来增强现有的开放词汇检测器。OVTrack,作为之前开放词汇 MOT 的表现最佳者,利用 Stable Diffusion 来增强基础。

图片

结论:

文章的主要贡献如下:

  1. 隐式学习与时空物体图:该方法隐式地学习运动模式和语义,而不是依赖于显式的运动模型。通过构建隐式的时空物体图(STOG),模型能够直接从数据中学习复杂的场景级物体结构和运动模式。
  2. 语义与运动协同:该方法利用语义信息来丰富位置先验,使得即使在不依赖外观线索的情况下,也能在新类别跟踪中获得更优的性能。这种协同作用允许模型将一种物体的运动模式知识转移到语义相似的类别中。
  3. 统一框架SLAck:提出了一个名为SLAck的集成模型,它在一个统一的关联框架中融合了语义、位置和外观信息,用于开放词汇的跟踪。SLAck通过预训练检测器提取描述符,并使用基于注意力的机制来促进信息交流。

引用文章:

SLAck: Semantic, Location, and AppearanceAware Open-Vocabulary Tracking

最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。