这是我参与8月更文挑战的第21天,活动详情查看:8月更文挑战
昨晚打开抖音推送的都是特斯拉 AI Day,大家可能关注。对于我来说可能更关心的 Tesla Bot,不过本人更关注自己了解一点的神经网络的部分,也就是 Tesla 的 FSD 这部分内容,今天我们一起围绕安德烈-卡尔帕西(Andrej Karpathy)的 presentation 给大家展开一下根据自己了解我们解读一下 FSD 是如何通过计算机视觉完成无人驾驶这个 big Task。
这个篇文章本身投入不少时间和精力,也是基于个人平时对计算机视觉一点认识,希望大家能够喜欢。如果希望为我来一个免费小赞给予鼓励,同时这篇文章实来不易,所以请勿随意转载,谢谢!
特使基于计算机视觉的自动驾驶思路
在人工智能日期间,特斯拉再次支持其基于视觉的自动驾驶方法,这种方法使用神经网络,在理想情况下,允许汽车通过其 "自动驾驶 "系统在地球上任何地方运作。特斯拉的人工智能主管安德烈-卡尔帕西(Andrej Karpathy)将特斯拉的架构描述为 "从头开始建造一只动物",他可以四处移动,感知环境,并根据他所看到的情况智能地自主行动。
从视觉组件(vision component)组件说起,所谓视觉组件就是从车身一周设置的 8 个摄像头采集的原始视频数据来实时地构建一个向量空间。这个向量空间提供无人驾驶对车辆控制的所有信息,道路的车道线、道路上行驶的车辆、行人、路面上交通支持,交通知识标识等等。
生物如何通过视觉感知环境
上面图是对脊椎动物通过视觉来感知环境过程进行符号化,这里有学多生物学的概念,这里我们认为在将信息传递给大脑处理之前,神经网络这些这特征进行逐层的组合和抽象。
在详细说一下,如下图,光(本质是电磁波)携带着外部世界的结构信息,经过一系列折光系统(如晶状体、玻璃体等),投射在眼球底部的视网膜上。LGN 接受这些输入图像信息一个轴突并不意味着只有一个下游,事实上一个LGN神经元可以投射到多个下游的V1神经元,一个V1细胞可以接收多个来自LGN细胞的输入。V1接受十几个LGN输入就足够形成一个视觉特征。随着信息的逐级整合,神经元的感受野也随之从局部、简单变得全局化和复杂化,LGN为同心圆感受野,V1可以编码不同局部特征,例如方向。部分V2整合来自V1的信息的基础上可以对两个方向形成的夹角有反应,而某些IT神经元则可以被更复杂的视觉特征(如特定物体)所激活确定某一个事物。
Karpathy 说明了特斯拉的神经网络是如何随着时间的推移而处理信息的,放生技术设计汽车的视觉皮层,基本上是汽车 "大脑 "中处理视觉信息的第一部分,以便信息更智能地流入系统。
首先是通过摄像头采集到原始图形数据 ,我们先简单回顾一下,就是在几年前特斯拉 Autopolite 通过单个摄像头收集图像信息,来识别车道线以确保车辆在可行驶区域行驶,预测与车辆的距离以保持车辆之间的安全距离。这些一切工作都是建立在单张图片基础上的。
特征提取 backbone 网络
看到这个网络结构大家是不是眼前一亮,这不就是残差网络结构,是的这就是残差网络结构(这段话的结构有点呵呵)。收集到原始图片输入到由残差块按一定顺序组成的神经网络 backbone(基础结构)。有关残差网络结构的细节之前给大家分享过。
注意一下上图左侧,原始图像经过残差网络结构给出不同分辨率的特征
如果看到上面数据,如果对神经网络不算了解人,可能 confusing,这里简单给大家解释一下 , 输出是个 128 张 大小特征图,那么所谓不同分辨率就是特征图大小越大分辨率就越高,也就是说明这个特征图带有更多图像细节的信息,反之分辨率越小,特征图尺寸越小,说明关注是全局的信息。
接下里就是 BiFPN 我们从原始图片上提取不同尺寸一定数量的特征,接下来就是融合阶段,我们将这些不同分辨率提取不同尺度的特征信息进行相互融合得到更丰富的信息,也就是是多尺度特征金字塔融合(Mulit-Scale Feature Pyramid Fusion)。不同尺度信息都是我们需要,分辨率较低特征图会从全局把握特征(也就是上下文信息),而分辨率高的特征图更注重细节,当然对于我们来说细节和全局信息都是我们需要,良好将他们融合再起会得到意想不到的效果。
举一个例子来说明一下融合的好处,例如上图中右下角细节特征图无法判断是否为车辆(Cart), 这是借助右侧图识别为平行线的消失点位置所以消除歧义给出正确答案 yes。
在 BiFPN 上面就是检测头,分别 cls 用于推测识别目标的类别,而 reg 用于回归目标的位置。有点类似 YOLO 输出是栅格,每一个栅格用于给出是否在该位置有目标,如果有有目标,这对目标进行扩展获取信息这些信息用于对目标进行准确定位,例如目标中心坐标 x,y 偏移量 offset,想了解更多可以看看我分享 YOLO 背后原理。
暂时休息一会儿,随后会继续更新,所谓随后可能就是今天下午呀,大家请勿走开,如果希望请持续关注。