GPT-4V在自动驾驶corner case识别考试的答卷:你打几分?

400 阅读4分钟

GPT-4V在自动驾驶corner case识别考试的答卷:你打几分?

题记

图森中国CTO王乃岩用五个case对GPT-4V(ChatGPT推出的图像理解功能)在自动驾驶场景中的表现做了测试,令人印象深刻。

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

5个case不够过瘾,于是我准备在更多的case上测试GPT-4V,对其在自动驾驶场景中的图片理解能力有更进一步的理解。


‍‍

数据集

自动驾驶传统的感知模型,需要标注交通灯、交通标志、道路标线、车辆、行人等各种类别的大量数据。一个难点就是那些出现情况比较少、人工标注很难覆盖到的corner case。为此,这次测试我专门找到了CODA,这个华为发布的自动驾驶corner case数据集。

coda-dataset.github.io/

图片

人力所限,我只用到了CODA base val set这个子集,包含4884张图片,标注信息中包括29个类别的元素:

图片


Prompt

此次测试使用的Prompt为:

你是一个自动驾驶专家,专长是识别交通场景,并做出驾驶决策。我将向你展示一系列自车拍摄的交通图片,请用精简、结构化的语言描述图中的道路状况、交通标识、交通参与者(可见范围内的所有行人、车辆等目标的特征、方位、行驶方向等)、周围环境、异常情况、自动驾驶策略。

图片


说明与结论

下面的测试结果,以图片展现为主,我会用箭头➡️标识重要的关注点,用圆圈⭕️圈出GPT-4V相应的输出,绿色标识理解准确✅,红色标识理解有误❌。话不多说,请各位读图感受。

下文多图流量预警,所以先上结论

  • 在自动驾驶场景中,GPT-4V大模型以非常高的准确性,在路面修补、施工区域、工程车、雨雾、特殊行人、狗子等corner case中,表现优秀,展现出远超自动驾驶感知模型的世界知识。‍‍‍‍‍‍‍‍‍

  • 在夜色、炫光,以及目标互相交叠的场景中,GPT-4V的表现差强人意,其空间感知能力弱,幻觉严重。‍‍‍‍‍‍‍‍‍‍

‍‍‍‍

这个结论是在多场景下与GPT-4V对话得到的定性结论,主观性较强。 “如何定量地衡量视觉大模型在自动驾驶场景的表现?” 这个问题也在测试过程中不断在脑袋中回响。现在我有一些零散的想法,如果你也感兴趣,欢迎在文末的评论区留言交流。‍‍‍‍‍‍‍‍‍‍‍

以下就是本次测试的场景,包括:‍‍‍‍‍‍‍

  • 那路‍‍

  • 那车

  • 那人

  • 那狗

  • 像雾,像雨,像雪

  • 夜色,炫光

  • 西湖,走走


那路

雨后湿滑

图片

修修补补

图片

高架桥下

图片

金属板材

图片

土方堆积

图片

建筑框架

图片


那车

中国道路上那些狂野的车们。‍‍‍

工程车:靠得太近,误认为合体

图片

作业平台

图片

混凝土搅拌机

图片

还有这样的

图片

图片

图片

三轮车:挺别致

图片

外卖

图片

运输车:谁敢比我长

图片

装点货

图片


那人

人在旅途

图片

重叠遮挡

图片

手里有个啥?

图片

送水的人

图片

几多车,几多人

图片

孩子呢

图片


那狗

狗子

图片

这个误会大了

图片

“那人好像一条狗啊!”

图片

我牵着你

图片

荒村,黑狗

图片

穿行中,勿扰

图片

我是一只狗,不是一只羊

图片


像雾,像雨,像雪

“天空它下着沙”

图片

下雨🌧了,快回家

图片

因为雨天,所以卡车?

图片

快到雪地里撒个欢

图片

雨天路滑

图片

打伞的人,还有雕塑

图片


夜色,炫光‍‍

夜色温柔

图片

你的影子无所不在

图片

红的不是车,是光

图片

还这么坚持?

图片

亮瞎了!

图片


西湖,走走

绿杨烟里

图片

白沙堤

图片

以上就是我这次测试的所有出题和GPT-4V的答卷,你会给它打几分?

由于时间关系,我没有对GPT-4V在每个case上追问更多问题,就它第一次回答直接做了判卷。也许深入的发问,可以让它消除一些幻觉。同时,Prompt可以进一步优化,以获得更加丰富和结构化的结果。大家可以进一步探索。