论文笔记(3)EPro-PnP

544 阅读3分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第3天,点击查看活动详情

本文是CVPR2022最佳学生论文EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation的学习笔记。

1. 引言

1.1 问题

本文要解决的问题是从单张RGB图像中定位3D物体,即求得由物体坐标系到相机坐标系的6自由度刚体变换 y

1.2 历史解决方案

1.2.1 直接位姿预测(显式)

这类方法直接采用神经网络进行简单的端到端训练,即FFN接收图像输入后直接输出并监督预测位姿。显然,该方式可解释性差并且容易造成过拟合。

1.2.2 基于几何的位姿估计(隐式)

PnP(Perspective-n-Point)是求解3D到2D点对运动的方法,目的是求解相机坐标系相对世界坐标系的位姿。它描述了已知n个3D点的坐标(相对世界坐标系)以及这些点的像素坐标时,如何估计相机的位姿(即求解世界坐标系到相机坐标系的旋转矩阵R和平移向量t)。

基于PnP,我们可以在物体和图像中找到N个对应的3D和2D坐标及其对应权重(可选),从而求解刚体变换y被转化为最小化重投影误差这样一个最优化问题的隐式解。

1.2.3 综合方法

这种方法将PnP和深度学习结合起来使用,利用FFN提取PnP中需要的点坐标和相关权重这些中间变量X。最开始的工作使用代理损失监督X,但显然不是最优的监督目标并且灵活性受限。理想情况下我们需要一个端到端并且能够学习全部中间变量的模型,先前的工作采用隐式微分想达到这个目标,但由于argmin的非连续性,端到端的损失在进行反向传播时存在不稳定性。

2. EPro-PnP

EPro-PnP(End-to-End Probabilistic-PnP)该方法的核心是:将不可微分的位姿y转化为可微的位姿概率密度函数P(y | X),由此可产生稳定的反向传播从而完成端到端的训练,可以通过该过程实现自主学习所有的2D、3D点以及关联信息。在进行模型训练,给定目标位姿分布t(y)时,采用KL Divergence DKL(t(y) | p(y|X))作为损失函数能够很好地表达出概率密度函数的估计效果。在使用Dirac Delta函数做局部近似后,解决问题的关键成为如何计算损失函数表达式中的积分。

由于位姿分布不是简单的正态分布,因此无法通过Laplace近似方法进行估计。本文采用基于Adaptive Multiple Importance Sampling的Monte Carlo近似方法,将积分转化为样本均值进行计算,解决了计算损失函数过程中面临的难题。