读解特斯拉神经网络领头人安德烈·卡帕斯关于无人驾驶策略的分享(2)

1,492 阅读3分钟

小知识,大挑战!本文正在参与“程序员必备小知识”创作活动。

前一阵特斯拉将其车前的雷达从车辆上移除,这就是意味着现在无人驾驶做决策的数据完全依靠视觉感知,这样也引起了内外界人的一致质疑,毕竟无人驾驶的对精度和测量准确度要求非常严格,是厘米级别的,而且不容疏忽。不过特斯拉相信视觉会做的更好,只要将力量集中视觉上是可以解决这个问题的。

其中认为视觉传感器要比雷达好的多,而且认为如果只要作为主传感器只要做的好,其他传感器的数据不但不会为结果贡献精度,反而可能是影响感知的噪音,拖了精度的后腿。接下来展示了神经网络输入,也就是从车身周围获取环绕车身的 8 个摄像头影像资料。

cameras_surround.png

这个 8 个摄像头是每秒 36 帧的高清摄像头,足够从周围环境中获取你所需要丰富信息。

两颗侧后视摄像头:装在翼子板上,位置靠前。 两颗侧前视摄像头:装在B柱,位置在侧后视的安装位置之后1m。 一颗后视摄像头:安装于车尾箱牌照框上方一颗毫米波雷达:位于前保险杠靠下方的位置。 商业模式可持续发展:特斯拉采取“自研系统及芯片+ 造车”的商业模式,既可降低长期成本,也同时可从车辆销售中获取收益。

camera_position.jpeg

cameras_pos.jpeg 大量信息大约每秒 8M 数据,关键是这么丰富的数据如何利用提取有价值的信息要特斯拉开发团队面临的调整。所以他们火力集中在数据上分析和网络结构设计上,而不是分散到雷达堆和视觉的融合上。

他们敢选择视觉的信息来源人类就是依靠视觉感知完成驾驶,但是我们还不确定神经网络就是正确读解视频的策略。例如和在视频数据中寻找各种不同目标,以及如何计算深度和移动物体的速度。不过安德烈卡帕斯团队他们经过研究,更加坚信这一点—神经网络是当下最好的方案。

当然雷达可以给出非常准确的深度和速度测量,不过从左侧图像看到辆车的雷达堆栈报告的深度速度和加速度,速度有点摇摆不定。当然雷达也可以用于测距来跟踪前车,不过问题是当车辆被遮挡,例如桥梁或者车辆交叉会出现一些错误。

ladiar_tracked.png

什么样数据集是训练出足够大神经网络的保证呢?首先需要数据集需要住够大,而且数据是干净没有污染的,数据标注了车辆的深度和速度,需要多样化,需要车队的力量来收集一些边缘的例子,然神经网络见多识广。

特斯拉需要用视觉来测量深度和速度,实现来替换雷达的预测,要做到这一点势必需要大量的车辆的深度和速度的数据,因为神经网络是一个大胃王。只要大量数据他们才能够训练出一个足够大神经网络,所以收集数据以及数据质量和数量称为了关键。

下一次分享特斯拉是如何搜集到这样的数据的。