V2VNet

关键问题

Ego 向其它车辆或 Infra 发消息，协作者将点云投影到与 Ego 同维，随后将经过编码后的特征图发送给 Ego，Ego 解码后送入 V2X-ViT 解决以下三个问题

Pose 误差，导致空间偏移

MSwin 效仿 Swin，通过不同大小的窗口聚合 Global 和 Local 的空间信息
Infra 的 features 与车辆的 features 有 Domain Gap

HMSA 异质图，车和 Infra 的节点被区分开，不同节点间的连接也被区分开
Feature Sharing 有延时

STCM、Delay-aware Positional Encoding

红色区域表示一个 Window，同一个 Window 中做注意力，不同 View 或者不同 Agent 之间相同的 Window 区域也同样做 Attention。由此聚合局部信息

所有的蓝色区域均可做 Attention，由此聚合全局信息

两个很独立的模型，可以单独拿出来做其它任务，例如 FuseBEVT 同样也可以用于聚合点云信息

他俩的区别在于：

根据 Confidence 做局部传输，自然能极大的降低通信量，很自然很优美的工作

前景目标的 Confidence 高于背景

接收者根据请求者的 request map 和自身的 confidence map 提取出自己能提供的且请求者需要的信息

同上，根据需求和自身情况建立相应的连接