不改权重、不用训练!BEM用背景记忆抑制固定摄像头误检,YOLO/RT-DETR全系有效

0 阅读8分钟

导读

预训练检测器在COCO上精度亮眼,但一旦部署到固定摄像头监控场景,误检率往往大幅上升——阴影、栏杆、重复纹理都可能被当成目标。问题出在哪?本文指出根源在于类内稀疏性(per-class sparsity):COCO每张图每个类别只有少量实例,而监控场景往往是密集、单类别的。

针对这个问题,仁川国立大学与美国德克萨斯理工大学的研究团队提出了BEM(Background Embedding Memory),一个完全免训练、不修改模型权重的推理时模块。BEM利用固定摄像头场景中"背景几乎不变"这一先验,通过背景嵌入记忆与余弦相似度驱动的logit重评分,自适应抑制误检。在LLVIP数据集上,BEM在全部8种检测器配置下均提升了P-AUC和mAP@0.5,其中RT-DETR-L(COCO→VOC)的P-AUC提升达+5.75个点,且无需任何额外训练。


论文信息

  • 标题:BEM: Training-Free Background Embedding Memory for False-Positive Suppression in Real-Time Fixed-Background Camera
  • 作者:Junwoo Park, Jangho Lee, Sunho Lim
  • 机构:Department of Computer Science and Engineering, Incheon National University; Army Artificial Intelligence Center, Republic of Korea Army; Department of Computer Science, Texas Tech University
  • 代码github.com/Leo-Park121…

一、固定摄像头场景下,预训练检测器为什么"不准"?

YOLO系列和RT-DETR等主流检测器在COCO基准上经过充分训练,通用检测能力已经相当成熟。然而,当这些模型被直接部署到固定摄像头的实际监控场景(如交通路口、安防通道)时,精度往往出现明显下降,大量假阳性检测(false positives) 成为主要瓶颈。

论文将这一现象归因于类内稀疏性(per-class sparsity) 问题。以COCO数据集为例,其设计强调类别多样性(category diversity) ,每张图像中每个类别通常只有少量实例。但在固定摄像头监控场景中,情况截然不同——以LLVIP行人监控数据集为例,单张图像中可能出现十几个行人,属于典型的密集、单类别或少类别分布。这种分布差异使得检测器容易将场景中反复出现的背景结构(如阴影、栏杆、路面标线)误判为前景目标。

与此同时,论文提出了一个关键观察:固定摄像头场景有一个尚未被充分利用的先验——准静态背景(quasi-static background) 。摄像头固定不动,意味着背景在时间维度上几乎不变。实验表明,当前帧与背景越相似(即场景中前景目标越少),检测器的精度越稳定;反之,当场景变化较大时,误检风险也随之升高。


二、BEM:用背景记忆驱动误检抑制

基于上述观察,论文提出了BEM(Background Embedding Memory) 。BEM是一个免训练(training-free)、不修改模型权重的推理时模块,可以直接挂载在任意预训练检测器之上。其核心思路是:利用背景的时序稳定性,建立一个背景嵌入记忆,再通过背景-当前帧的相似度来自适应调整检测器的输出置信度,从而抑制误检。

整个流程分为三步:

Step 1:背景估计(Background Estimation)

BEM从最近L帧(论文中L=25,经经验搜索确定)中提取背景。具体方法是:利用检测器自身的检测框标记前景区域,对非前景区域的像素进行掩码时序平均(masked temporal averaging) 。公式为:

B = Σ(I_t ⊙ M_t) / Σ M_t

其中M_t=0的区域表示被检测器标记的前景区域。这样得到的背景估计B,排除了前景目标的干扰,保留了场景的静态结构信息。

Step 2:背景嵌入记忆(Background Embedding Memory)

BEM复用检测器自身的backbone(不修改权重),分别提取背景B和当前帧I的特征,经过全局池化和归一化后得到:

  • E_B = norm(pool(f(B))):背景嵌入
  • E_I = norm(pool(f(I))):当前帧嵌入

然后计算两者的余弦相似度

c = E_I^T · E_B

论文通过实验验证了一个关键发现:相似度c与场景中目标数量呈负相关,与P-AUC呈正相关。换言之,c越高表明当前帧越接近纯背景,检测器的精度越高;c越低则说明场景中前景目标较多或场景发生了较大变化。

Step 3:相似度驱动的Logit重评分(Similarity-Driven Logit Re-scoring)

在获得相似度c之后,BEM对检测器输出的N个proposal进行重评分。具体做法是:

  1. 将N个proposal按置信度降序排列,得到排名r_i
  2. 在logit空间中施加反向相似度、排名加权的惩罚

z'_i = logit(s̄_i) - (α/γ) · w_i / max(c, δ)

s'_i = σ(z'_i)

其中:

  • w_i = (N - r_i) / (N + 1):排名权重,高置信度的proposal排名靠前,w_i较小,受到的惩罚更轻
  • α:惩罚尺度(per-detector调优)
  • γ:温度参数
  • δ:数值稳定常数(10⁻⁶)

这个设计的核心逻辑是:当背景相似度c较低时(场景变化大或目标较多),惩罚项增大,更积极地抑制低置信度检测;而高置信度的检测受到的影响较小,从而保护真正的正确检测不被误伤。

图片

图片来源于原论文


三、实验结果:8种检测器配置全面提升

数据集与实验设置

论文选用LLVIP数据集进行评估。LLVIP包含16,836对可见光+红外图像,覆盖26个街道位置,目标类别为单一的行人检测,可见光分辨率为1920×1080,红外分辨率为1280×720,是典型的固定摄像头监控场景。

实验覆盖了8种检测器变体

  • COCO预训练:YOLOv11m、YOLOv8s、RT-DETR-L
  • COCO→VOC微调:YOLOv11m、YOLOv8s、RT-DETR-L
  • 开放词汇模型:YOLOv8s-Worldv2、YOLOv8l-Worldv2

所有检测器在评估时权重完全冻结,BEM作为外部模块附加,不修改任何模型参数。评估指标包括mAP@0.50、P-AUC(Precision-Confidence AUC) 和Latency。

检测精度对比

模型(变体)P-AUC BaseP-AUC BEMmAP@0.5 BasemAP@0.5 BEM
YOLOv11m (COCO)89.8292.87(±0.034)80.4980.99(±0.001)
YOLOv8s (COCO)88.4491.63(±0.017)75.3475.90(±0.028)
RT-DETR-L (COCO)77.6082.85(±0.030)79.2679.59(±0.022)
YOLOv11m (COCO→VOC)93.3994.24(±0.004)68.7169.51(±0.012)
YOLOv8s (COCO→VOC)92.6793.51(±0.013)66.1766.88(±0.021)
RT-DETR-L (COCO→VOC)78.4484.19(±0.027)66.1966.58(±0.027)
YOLOv8s-Worldv281.7881.88(±0.011)90.2391.36(±0.001)
YOLOv8l-Worldv286.2286.27(±0.005)91.2092.36(±0.003)

从结果来看:

  • BEM在全部8种设置下均同时提升了P-AUC和mAP@0.5,没有出现任何性能退化
  • P-AUC提升幅度最大的是RT-DETR-L(COCO→VOC) ,从78.44提升到84.19,增幅达+5.75
  • COCO预训练模型整体获益最大,P-AUC平均提升约+2至+5个点
  • mAP@0.5的提升幅度较小但方向一致为正,范围在+0.33到+1.16之间
  • 提升主要集中在高背景相似度的帧上——即背景主导、前景目标较少的帧受益最大

延迟开销

模型Base延迟 (ms)BEM延迟 (ms)相对增幅
YOLOv11m370.15 (±1.22)415.02 (±3.81)+12.1%
YOLOv8s318.49 (±1.97)368.26 (±5.93)+15.6%
RT-DETR-L30.87 (±0.14)54.44 (±0.34)+76.3%
YOLOv8s-Worldv223.52 (±0.10)41.67 (±0.12)+77.2%
YOLOv8l-Worldv225.51 (±0.08)44.44 (±0.08)+74.2%

BEM增加的延迟主要来自背景嵌入的特征提取计算。对于本身推理较慢的模型(如YOLOv11m,基线370.15ms),BEM的相对开销较小(+12.1%);对于本身较快的模型(如RT-DETR-L,基线30.87ms),相对开销较大(+76.3%),但绝对延迟仍为54.44ms,在实时监控场景中仍属可接受范围。


四、消融实验:超参数α和γ的影响

论文对BEM的两个核心超参数——惩罚尺度α和温度参数γ进行了消融分析。

实验发现,当γ较大时,模型对α的选择不敏感,P-AUC在较宽的α范围内保持稳定。这意味着在实际部署中,用户不需要对α进行精细调优,只需选择一个较大的γ值即可获得稳健的表现。

此外,背景估计中的时间窗口长度L=25也是经验搜索确定的。这个参数决定了用多少帧来估计背景,过短可能导致背景估计不稳定,过长则可能无法适应缓慢的光照变化。


五、总结与思考

BEM的核心思路是利用固定摄像头"背景不变"的先验,在推理时通过背景嵌入相似度自适应校正检测器输出,无需训练或修改权重。实验在8种检测器配置上P-AUC均有提升(最高+5.75),且无性能退化。

值得关注的是,BEM目前仅在LLVIP(单类别行人监控)上验证,在多类别场景和背景存在周期性变化(树木摇摆、光照剧变)的条件下是否仍然可靠,还需更多验证。此外,对RT-DETR-L等快速模型的延迟增幅达76%,边缘部署场景中可考虑缓存背景嵌入来降低开销。BEM的即插即用特性和已开源代码,使其对已部署YOLO/RT-DETR的监控系统具有较高的工程实用价值。

图片

图片来源于原论文