本文是 Projecting Your View Attentively: Monocular Road Scene Layout Estimation via Cross-view Transformation 的学习笔记,这篇文章发表在 CVPR 2021
简介
任务:前视单目图像 重建 局部地图(包括道路和汽车)
关键模块:cross-view transformation module / context-aware discriminator
方法
整个模型结构是基于 GAN 的
cross-view transformation module 由 cycled view projection (CVP) 和 the cross-view transformer (CVT) 两部分组成
cycled view projection (CVP) 是基于 MLP 的循环结构,将前视特征 X 通过 MLP 得到 BEV 下的 X',再由 X' 生成前视的 X''
the cross-view transformer (CVT) 的 Q 是 BEV 下的 X',K 是前视 X,V 是前视 X'',通过两种前视来增强 BEV 特征