本文已参与「新人创作礼」活动,一起开启掘金创作之路。
写在前面
使用Cost volume预测深度倒是很常见,但文中这种使用方式倒是不常见。
动机
由于2D-3D投影固有的不适定性,单目3D目标检测缺乏精确的深度恢复能力。虽然深度神经网络(DNN)能够从高层学习的特征中进行单目深度感知,但由于深度卷积机制,像素级别的线索通常被忽略。为了同时利用DNN强大的特征表示和像素级几何约束,将单目目标深度估计问题转化为一个“渐进式求解”问题,并提出了一个联合语义和几何代价体积(Semantic and Geometric Cost Volume)来建模深度误差。
贡献
具体地说,首先利用神经网络来学习对象的位置、尺寸和密集归一化的3D对象坐标。基于物体深度,将密集的坐标块与相应的物体特征一起重新投影到图像空间,以联合语义和几何误差的方式建立代价体积。最终深度是通过将成本量反馈到求精网络中得到的,其中语义误差和几何误差的分布通过直接的深度监督来规则化。通过精化框架有效地缓解深度误差,在Kitti和Waymo数据集上都获得了最好的效果。工作可以总结为:
1.基于像素级几何和语义视觉线索,提出了一种新的物体深度语义和几何误差联合测量方法。
2.设计了一个自适应的4D代价体积,它对深度细化的误差分布进行建模。
3.在Kitti和Waymo数据集上验证了所提出的方法的有效性,它们获得了最先进的结果和实时性能。
方法论
刚刚提到,基于几何约束的深度恢复存在不加区别的 2D 线索以及 2D 线索预测和深度估计之间的间接优化差距,为了缓解这些问题,作者提出了一种联合语义和几何能量函数来丰富深度推理的几何线索,然后提取相应的语义特征,构造了一个联合语义和几何的约束。
1.通过自适应2D-3D代价函数改进
通过将语义特征结合到 2D-3D 约束中,能量函数比以前更强大,然而,语义特征也会导致非凸能量函数,使其无法被快速线性求解器求解;作者没有采用复杂的求解模块,而是将构建的能量函数视为深度改进特征来指示深度误差;为了提供有效的细化特征,作者构建了一个自适应 4D 代价函数,它使用所提出的能量函数绘制深度的误差分布。
2.整体流程
整个流程如图所示;提出的模块是修改后的 CenterNet,改进模块基于代价函数;在训练时,优化提出模块的损失与 MonoDLE相同,对于改进损失,作者过滤了与ground truth对应的2D IoU小于0.5的负样本;在推理过程中,作者基于CenterNet选择候选边界框,并通过结合proposal阶段估计的类别、维度、偏航角、投影位置和改进阶段的估计深度来生成最终的边界框。