不改权重、不用训练！BEM用背景记忆抑制固定摄像头误检，YOLO/RT-DETR全系有效预训练检测器在COCO上精度亮眼

导读

预训练检测器在COCO上精度亮眼，但一旦部署到固定摄像头监控场景，误检率往往大幅上升——阴影、栏杆、重复纹理都可能被当成目标。问题出在哪？本文指出根源在于类内稀疏性（per-class sparsity）：COCO每张图每个类别只有少量实例，而监控场景往往是密集、单类别的。

针对这个问题，仁川国立大学与美国德克萨斯理工大学的研究团队提出了BEM（Background Embedding Memory），一个完全免训练、不修改模型权重的推理时模块。BEM利用固定摄像头场景中"背景几乎不变"这一先验，通过背景嵌入记忆与余弦相似度驱动的logit重评分，自适应抑制误检。在LLVIP数据集上，BEM在全部8种检测器配置下均提升了P-AUC和mAP@0.5，其中RT-DETR-L（COCO→VOC）的P-AUC提升达+5.75个点，且无需任何额外训练。

论文信息

标题：BEM: Training-Free Background Embedding Memory for False-Positive Suppression in Real-Time Fixed-Background Camera
作者：Junwoo Park, Jangho Lee, Sunho Lim
机构：Department of Computer Science and Engineering, Incheon National University; Army Artificial Intelligence Center, Republic of Korea Army; Department of Computer Science, Texas Tech University
代码：github.com/Leo-Park121…

一、固定摄像头场景下，预训练检测器为什么"不准"？

YOLO系列和RT-DETR等主流检测器在COCO基准上经过充分训练，通用检测能力已经相当成熟。然而，当这些模型被直接部署到固定摄像头的实际监控场景（如交通路口、安防通道）时，精度往往出现明显下降，大量假阳性检测（false positives） 成为主要瓶颈。

论文将这一现象归因于类内稀疏性（per-class sparsity） 问题。以COCO数据集为例，其设计强调类别多样性（category diversity） ，每张图像中每个类别通常只有少量实例。但在固定摄像头监控场景中，情况截然不同——以LLVIP行人监控数据集为例，单张图像中可能出现十几个行人，属于典型的密集、单类别或少类别分布。这种分布差异使得检测器容易将场景中反复出现的背景结构（如阴影、栏杆、路面标线）误判为前景目标。

与此同时，论文提出了一个关键观察：固定摄像头场景有一个尚未被充分利用的先验——准静态背景（quasi-static background） 。摄像头固定不动，意味着背景在时间维度上几乎不变。实验表明，当前帧与背景越相似（即场景中前景目标越少），检测器的精度越稳定；反之，当场景变化较大时，误检风险也随之升高。

二、BEM：用背景记忆驱动误检抑制

基于上述观察，论文提出了BEM（Background Embedding Memory） 。BEM是一个免训练（training-free）、不修改模型权重的推理时模块，可以直接挂载在任意预训练检测器之上。其核心思路是：利用背景的时序稳定性，建立一个背景嵌入记忆，再通过背景-当前帧的相似度来自适应调整检测器的输出置信度，从而抑制误检。

整个流程分为三步：

Step 1：背景估计（Background Estimation）

BEM从最近L帧（论文中L=25，经经验搜索确定）中提取背景。具体方法是：利用检测器自身的检测框标记前景区域，对非前景区域的像素进行掩码时序平均（masked temporal averaging） 。公式为：

B = Σ(I_t ⊙ M_t) / Σ M_t

其中M_t=0的区域表示被检测器标记的前景区域。这样得到的背景估计B，排除了前景目标的干扰，保留了场景的静态结构信息。

Step 2：背景嵌入记忆（Background Embedding Memory）

BEM复用检测器自身的backbone（不修改权重），分别提取背景B和当前帧I的特征，经过全局池化和归一化后得到：

E_B = norm(pool(f(B)))：背景嵌入
E_I = norm(pool(f(I)))：当前帧嵌入

然后计算两者的余弦相似度：

c = E_I^T · E_B

论文通过实验验证了一个关键发现：相似度c与场景中目标数量呈负相关，与P-AUC呈正相关。换言之，c越高表明当前帧越接近纯背景，检测器的精度越高；c越低则说明场景中前景目标较多或场景发生了较大变化。

Step 3：相似度驱动的Logit重评分（Similarity-Driven Logit Re-scoring）

在获得相似度c之后，BEM对检测器输出的N个proposal进行重评分。具体做法是：

将N个proposal按置信度降序排列，得到排名r_i
在logit空间中施加反向相似度、排名加权的惩罚：

z'_i = logit(s̄_i) - (α/γ) · w_i / max(c, δ)

s'_i = σ(z'_i)

其中：

w_i = (N - r_i) / (N + 1)：排名权重，高置信度的proposal排名靠前，w_i较小，受到的惩罚更轻
α：惩罚尺度（per-detector调优）
γ：温度参数
δ：数值稳定常数（10⁻⁶）

这个设计的核心逻辑是：当背景相似度c较低时（场景变化大或目标较多），惩罚项增大，更积极地抑制低置信度检测；而高置信度的检测受到的影响较小，从而保护真正的正确检测不被误伤。

图片来源于原论文

三、实验结果：8种检测器配置全面提升

数据集与实验设置

论文选用LLVIP数据集进行评估。LLVIP包含16,836对可见光+红外图像，覆盖26个街道位置，目标类别为单一的行人检测，可见光分辨率为1920×1080，红外分辨率为1280×720，是典型的固定摄像头监控场景。

实验覆盖了8种检测器变体：

COCO预训练：YOLOv11m、YOLOv8s、RT-DETR-L
COCO→VOC微调：YOLOv11m、YOLOv8s、RT-DETR-L
开放词汇模型：YOLOv8s-Worldv2、YOLOv8l-Worldv2

所有检测器在评估时权重完全冻结，BEM作为外部模块附加，不修改任何模型参数。评估指标包括mAP@0.50、P-AUC（Precision-Confidence AUC） 和Latency。

检测精度对比

模型（变体）	P-AUC Base	P-AUC BEM	mAP@0.5 Base	mAP@0.5 BEM
YOLOv11m (COCO)	89.82	92.87(±0.034)	80.49	80.99(±0.001)
YOLOv8s (COCO)	88.44	91.63(±0.017)	75.34	75.90(±0.028)
RT-DETR-L (COCO)	77.60	82.85(±0.030)	79.26	79.59(±0.022)
YOLOv11m (COCO→VOC)	93.39	94.24(±0.004)	68.71	69.51(±0.012)
YOLOv8s (COCO→VOC)	92.67	93.51(±0.013)	66.17	66.88(±0.021)
RT-DETR-L (COCO→VOC)	78.44	84.19(±0.027)	66.19	66.58(±0.027)
YOLOv8s-Worldv2	81.78	81.88(±0.011)	90.23	91.36(±0.001)
YOLOv8l-Worldv2	86.22	86.27(±0.005)	91.20	92.36(±0.003)

从结果来看：

BEM在全部8种设置下均同时提升了P-AUC和mAP@0.5，没有出现任何性能退化
P-AUC提升幅度最大的是RT-DETR-L（COCO→VOC） ，从78.44提升到84.19，增幅达+5.75
COCO预训练模型整体获益最大，P-AUC平均提升约+2至+5个点
mAP@0.5的提升幅度较小但方向一致为正，范围在+0.33到+1.16之间
提升主要集中在高背景相似度的帧上——即背景主导、前景目标较少的帧受益最大

延迟开销

模型	Base延迟 (ms)	BEM延迟 (ms)	相对增幅
YOLOv11m	370.15 (±1.22)	415.02 (±3.81)	+12.1%
YOLOv8s	318.49 (±1.97)	368.26 (±5.93)	+15.6%
RT-DETR-L	30.87 (±0.14)	54.44 (±0.34)	+76.3%
YOLOv8s-Worldv2	23.52 (±0.10)	41.67 (±0.12)	+77.2%
YOLOv8l-Worldv2	25.51 (±0.08)	44.44 (±0.08)	+74.2%

BEM增加的延迟主要来自背景嵌入的特征提取计算。对于本身推理较慢的模型（如YOLOv11m，基线370.15ms），BEM的相对开销较小（+12.1%）；对于本身较快的模型（如RT-DETR-L，基线30.87ms），相对开销较大（+76.3%），但绝对延迟仍为54.44ms，在实时监控场景中仍属可接受范围。

四、消融实验：超参数α和γ的影响

论文对BEM的两个核心超参数——惩罚尺度α和温度参数γ进行了消融分析。

实验发现，当γ较大时，模型对α的选择不敏感，P-AUC在较宽的α范围内保持稳定。这意味着在实际部署中，用户不需要对α进行精细调优，只需选择一个较大的γ值即可获得稳健的表现。

此外，背景估计中的时间窗口长度L=25也是经验搜索确定的。这个参数决定了用多少帧来估计背景，过短可能导致背景估计不稳定，过长则可能无法适应缓慢的光照变化。

五、总结与思考

BEM的核心思路是利用固定摄像头"背景不变"的先验，在推理时通过背景嵌入相似度自适应校正检测器输出，无需训练或修改权重。实验在8种检测器配置上P-AUC均有提升（最高+5.75），且无性能退化。

值得关注的是，BEM目前仅在LLVIP（单类别行人监控）上验证，在多类别场景和背景存在周期性变化（树木摇摆、光照剧变）的条件下是否仍然可靠，还需更多验证。此外，对RT-DETR-L等快速模型的延迟增幅达76%，边缘部署场景中可考虑缓存背景嵌入来降低开销。BEM的即插即用特性和已开源代码，使其对已部署YOLO/RT-DETR的监控系统具有较高的工程实用价值。

图片来源于原论文