模型原理

点击这里获取论文地址
CenterNet属于anchor-free系列的目标检测,相比于CornerNet做出了改进,使得检测速度和精度相比于one-stage和two-stage的框架都有不小的提高,尤其是与YOLOv3作比较,在相同速度的条件下,精度比YOLOv3提高了4个左右的点。
CenterNet采用关键点估计找到目标的中心点,并回归到其他目标属性,例如尺寸,3D位置,方向,甚至姿态。
CenterNet是端到端可微的,不需要NMS后处理。
CenterNet 相比较传统目标检测而言(缩放16倍尺度),使用更大分辨率的输出特征图(缩放了4倍),因此无需用到多重特征图锚点。
pipeline
假设输入图像为I∈RW×H×3 ,其中W和H分别为图像的宽和高,预测时,产生出目标中心点的关键点热力图(keypoint heatmap):Y^∈[0,1]RW×RH×C、关键点偏差预测Op^∈RRW×RH×2、检测框大小的预测Sp^∈RRW×RH×2,其中R为原图的缩放倍数(论文中为4),而C是在目标检测中对应目标类别数量(COCO目标检测中,C=80)。模型输出维度为[RW×RH×(C+2)].
关键点热力图
对每个目标bounding box真值,计算中心点像素坐标(x,y),然后根据缩放倍数R和类别c∈C,得到缩放之后的feature map上的坐标(x′,y′,c)=(⌊Rx⌋,⌊Ry⌋,c). 最后在每个通道上根据高斯核:exp(−2σp2(x−x′)2+(y−y′)2),得到热力图,其中σp是尺度自适应标准差。多个高斯核重叠区域取最大值。
关键点估计损失
L=N1xyc∑{(1−Y^xyc)αlogY^xyc(1−Yxyc)βY^xycαlog(1−Y^xyc)Yxyc=1otherwise
使用Focal Loss,其中当Yxyc=1时,添加(1−Yxyc)β来抑制中心点周围的值,使其Loss比重增大,实验测定α=2,β=4时效果最好。
关键点偏差损失
heatmap热力图比输入缩放了R倍,关键点整数坐标p^是离散点,而中心点p缩放R倍之后Rp是浮点值,两者存在偏差,因此对每个关键点预测一个偏差Op^∈RRW×RH×2,损失函数为L1 Loss
Loff=N1p^∑Op^−(Rp−p^)
检测框大小回归损失
对每个预测的关键点p^,对应地预测检测框大小Sp^∈RRW×RH×2,与实际的检测框Sp进行L1 Loss
Lsize=N1p^∑∣Sp−Sp^∣