论文笔记（3）EPro-PnPGeneralized End-to-End Probabilistic Perspect

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第3天，点击查看活动详情

本文是CVPR2022最佳学生论文EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation的学习笔记。

1. 引言

1.1 问题

本文要解决的问题是从单张RGB图像中定位3D物体，即求得由物体坐标系到相机坐标系的6自由度刚体变换 y。

1.2 历史解决方案

1.2.1 直接位姿预测（显式）

这类方法直接采用神经网络进行简单的端到端训练，即FFN接收图像输入后直接输出并监督预测位姿。显然，该方式可解释性差并且容易造成过拟合。

1.2.2 基于几何的位姿估计（隐式）

PnP(Perspective-n-Point)是求解3D到2D点对运动的方法，目的是求解相机坐标系相对世界坐标系的位姿。它描述了已知n个3D点的坐标(相对世界坐标系)以及这些点的像素坐标时，如何估计相机的位姿(即求解世界坐标系到相机坐标系的旋转矩阵R和平移向量t)。

基于PnP，我们可以在物体和图像中找到N个对应的3D和2D坐标及其对应权重（可选），从而求解刚体变换y被转化为最小化重投影误差这样一个最优化问题的隐式解。

1.2.3 综合方法

这种方法将PnP和深度学习结合起来使用，利用FFN提取PnP中需要的点坐标和相关权重这些中间变量X。最开始的工作使用代理损失监督X，但显然不是最优的监督目标并且灵活性受限。理想情况下我们需要一个端到端并且能够学习全部中间变量的模型，先前的工作采用隐式微分想达到这个目标，但由于argmin的非连续性，端到端的损失在进行反向传播时存在不稳定性。

2. EPro-PnP

EPro-PnP（End-to-End Probabilistic-PnP）该方法的核心是：将不可微分的位姿y转化为可微的位姿概率密度函数P(y | X)，由此可产生稳定的反向传播从而完成端到端的训练，可以通过该过程实现自主学习所有的2D、3D点以及关联信息。在进行模型训练，给定目标位姿分布t(y)时，采用KL Divergence DKL(t(y) | p(y|X))作为损失函数能够很好地表达出概率密度函数的估计效果。在使用Dirac Delta函数做局部近似后，解决问题的关键成为如何计算损失函数表达式中的积分。

由于位姿分布不是简单的正态分布，因此无法通过Laplace近似方法进行估计。本文采用基于Adaptive Multiple Importance Sampling的Monte Carlo近似方法，将积分转化为样本均值进行计算，解决了计算损失函数过程中面临的难题。