本文是 Projecting Your View Attentively: Monocular Road Scene Layout Estimation via Cross-view Transformation 的学习笔记，这篇文章发表在 CVPR 2021

简介

任务：前视单目图像重建局部地图（包括道路和汽车）

关键模块：cross-view transformation module / context-aware discriminator

方法

整个模型结构是基于 GAN 的

cross-view transformation module 由 cycled view projection (CVP) 和 the cross-view transformer (CVT) 两部分组成

cycled view projection (CVP) 是基于 MLP 的循环结构，将前视特征 X 通过 MLP 得到 BEV 下的 X'，再由 X' 生成前视的 X''

the cross-view transformer (CVT) 的 Q 是 BEV 下的 X'，K 是前视 X，V 是前视 X''，通过两种前视来增强 BEV 特征