V2VNet
关键问题
-
传输什么信息?既能保留所有重要信息,又能最小化传输带宽
中间特征,做特征级融合
-
单车如何整合收到的所有信息?
时间对齐、GNN 空间对齐
V2X-ViT
流程
Ego 向其它车辆或 Infra 发消息,协作者将点云投影到与 Ego 同维,随后将经过编码后的特征图发送给 Ego,Ego 解码后送入 V2X-ViT 解决以下三个问题
关键问题
-
Pose 误差,导致空间偏移
MSwin 效仿 Swin, 通过不同大小的窗口聚合 Global 和 Local 的空间信息
-
Infra 的 features 与车辆的 features 有 Domain Gap
HMSA 异质图,车和 Infra 的节点被区分开,不同节点间的连接也被区分开
-
Feature Sharing 有延时
STCM、Delay-aware Positional Encoding
CoBEVT
关键问题
-
2D 图像到 BEV
SinBEVT
-
BEV 融合
FuseBEVT
核心 - FAX
- Local Attention
红色区域表示一个 Window,同一个 Window 中做注意力,不同 View 或者不同 Agent 之间相同的 Window 区域也同样做 Attention。由此聚合局部信息
- Global Attention
所有的蓝色区域均可做 Attention,由此聚合全局信息
SinBEVT 和 FuseBEVT
两个很独立的模型,可以单独拿出来做其它任务,例如 FuseBEVT 同样也可以用于聚合点云信息
他俩的区别在于:
- SimBEVT 将要学习的 BEV Embedding 作为 Q,Camera Features 作为 K,V
- FuseBEVT 的 Q,K,V 均为原始聚合的 BEV Features
Where2comm
根据 Confidence 做局部传输,自然能极大的降低通信量,很自然很优美的工作
Spatial confidence generator
前景目标的 Confidence 高于背景
Message packing (what to collaborate)
接收者根据请求者的 request map 和自身的 confidence map 提取出自己能提供的且请求者需要的信息
Communication graph construction (Who to collaborate)
同上,根据需求和自身情况建立相应的连接