BEVFormer利用查询查找时空空间并相应地聚合时空信息,从而为感知任务带来更强的表示。
该框架使用时空转换器学习统一的BEV表示,以支持多个自动驾驶感知任务。简而言之,BEVFormer 通过预定义的网格形状的 BEV 查询与空间和时间空间交互来利用空间和时间信息。
BEVFormer,可以有效地聚合多视角摄像机和历史BEV特征的时空特征。BEVFormer 生成的 BEV 特征可以同时支持多个 3D 感知任务,例如 3D 对象检测和地图分割,这对于自动驾驶系统很有价值。如图1所示,我们的BEVFormer包含三个关键设计,分别是(1)网格形状的BEV查询,通过注意机制灵活融合空间和时间特征,(2)空间交叉注意模块从多摄像头图像中聚合空间特征,(3)时间自我注意模块
• 我们提出了 BEVFormer,这是一种时空转换器编码器,它将多摄像头和/或时间戳输入投影到 BEV 表示。通过统一的BEV特征,我们的模型可以同时支持多个自动驾驶感知任务,包括3D检测和地图分割。2 •我们设计了可学习的BEV查询以及空间交叉注意层和时间自我注意层,分别从跨摄像机和历史BEV的时间特征中查找空间特征,然后将它们聚合成统一的BEV特征。
(a) BEVFormer的编码器层包含网格形状的BEV查询、时间自我注意和空间交叉注意。(b) 在空间交叉注意中,每个 BEV 查询仅与感兴趣区域中的图像特征交互。(c) 在时间自注意力中,每个 BEV 查询与两个特征交互:当前时间戳的 BEV 查询和前一个时间戳的 BEV 特征。
将多摄像头图像特征转换为鸟瞰(BEV)特征可以为各种自动驾驶感知任务提供统一的周围环境表示。在这项工作中,我们提出了一种新的基于变压器的BEV生成框架,该框架可以通过注意机制有效地从多视角摄像机和历史BEV特征聚合时空特征。
如图2所示,BEVFormer有6个编码器层,每个编码器层都遵循变压器的传统结构,除了BEV查询、空间交叉注意和时间自注意三种定制设计。具体来说,BEV 查询是网格形状的可学习参数,旨在通过注意力机制从多摄像头视图中查询 BEV 空间中的特征。空间交叉注意和时间自我注意是处理BEV查询的注意层,用于根据BEV查询从多摄像头图像中查找和聚合空间特征,以及来自历史BEV的时间特征。
BEV特征的中心默认对应于自我汽车的位置。按照常见的做法[14],我们在将可学习的位置嵌入输入到BEV查询Q之前,将它们添加到BEV查询Q中。
空间交叉注意(SCA)的过程可以表述为:
其中 i 索引相机视图,j 索引参考点,Nref 是每个 BEV 查询的总参考点。F it 是第 i 个相机视图的特征。对于每个 BEV 查询 Qp,我们使用项目函数 P(p, i, j) 来获得第 i 个视图图像上的第 j 个参考点。
H, W为BEV查询的空间形状,s为BEV网格的分辨率大小,(x ', y ')为自我汽车位置为原点的坐标。
这样,对于每个查询 Qp,我们获得了 3D 参考点 (x′, y′, z′j )Nrefj=1 的支柱。最后,我们通过相机的投影矩阵将 3D 参考点投影到不同的图像视图中,可以写成:这里,P(p, i, j) 是从第 j 个 3D 点 (x′, y′, z′j ), Ti ∈ R3×4 是第 i 个视图的 2D 点是第 i 个相机的已知投影矩阵。
我们通过时间自注意力 (TSA) 层对特征之间的这种时间连接进行建模,可以写成如下:
其中 Qp 表示位于 p = (x, y) 的 BEV 查询。此外,与普通的可变形注意力不同,时间自注意力中的偏移量 Δp 由 Q 和 B't-1 的串联预测。
我们基于 2D 检测器 Deformable DETR 设计了一个端到端的 3D 检测头。修改包括使用单尺度 BEV 特征 Bt 作为解码器的输入,预测 3D 边界框和速度而不是 2D 边界框,仅使用 L1 损失来监督 3D 边界框回归。使用检测头,我们的模型可以端到端预测 3D 边界框和速度,而无需 NMS 后处理。
训练阶段。 对于时间戳 t 的每个样本,我们从过去 2 秒的连续序列中随机采样另外 3 个样本,这种随机抽样策略可以增强自我运动的多样性[57]。我们将这四个样本的时间戳表示为 t-3、t-2、t-1 和 t。对于前三个时间戳的样本,它们负责循环生成 BEV 特征 {Bt-3, Bt−2, Bt−1},并且这个阶段不需要梯度。对于时间戳−3的第一个样本,没有以前的BEV特征,时间自我注意退化为自我注意。在t时刻,该模型基于多摄像头输入和先验BEV特征Bt−1生成BEV特征Bt,使Bt包含跨越四个样本的时间和空间线索。最后,我们将 BEV 特征 Bt 输入到检测和分割头中并计算相应的损失函数。
推理阶段。 在推理阶段,我们按时间顺序评估视频序列的每一帧。保存前一个时间戳的BEV特征,用于下一个时间戳,这种在线推理策略具有时间效率,与实际应用一致。虽然我们利用时间信息,但我们的推理速度仍然与其他方法相当。