解读特斯拉 AI DAY—从视图到向量空间(1)

596 阅读2分钟

小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。

最近一次 AI DAY 上,埃隆马斯克带来了 robot,不过 robot 登场更多是吸引眼球,让特斯拉的 AI DAY 受到更多人的关注,就像小米的铁蛋。不过这一次最吸引我的还是安德烈·卡帕斯关于 FSD 的 presentation。

特斯拉可以是说在无人驾驶车企独树一帜,当大家都认为无人驾驶离不开激光雷达,特斯拉却选择移除唯一的一个前置激光雷达。其实作为接触过神经网络到今天还不相信单凭神经网络和几个摄像头就能担当如此重任,不过特斯拉却一步一步给大家证明可以。

test_fsd.png

根据安德烈·卡帕斯的 presentation,特斯拉采用技术也都是比较成熟的,例如 resNet、Transformer,BiFPN 等等,这些技术都是当前比较成熟的,不过当你看到安德烈·卡帕斯对他们应用,也会不禁惊叹,这些熟知技术也让特斯拉用的风生水起,背后新颖概念和出奇组合。

向量空间

首先特斯拉没有高精度地图,不过他们提出了向量空间,后来看这个向量空间是仅是空间上向量空间而且是时空意义上的向量空间。

不过如何将 8 个摄像头图像中收集信息转换到向量空间,说起来容易,做起来却不那么容易。如果让我们做应该怎么做呢? 先拼接图像,利用摄影几何基于摄像机内外参数来构建世界坐标系,然后将摄像机物体投射到这个世界坐标,不过整个过程存在近似计算,大量误差堆积造成精度问题。

这里特斯拉想到 Transformer ,Transformer 是一个大胃王,不过这个正中下怀,特斯拉就不缺数据,将提取特征向量转换到向量空间。

001.png

这 easy to say hard to do,看上图我们需要把许多内容对号入座,例如经过多任务网络提取多尺度特征。这部分内容我们还需要深入研究。