今天早上发现,ChatGPT终于给我开放了图片输入的功能,配合上之前的语音功能,新功能算是齐了,马上迫不及待的玩了一下:
1. 专辑封面识别
哇塞!看出来4张专辑封面,已经让我非常震撼了!
2. 书籍识别和推荐
这里尝试了进行了多图的识别,ChatGPT的图片识别不止把书的内容识别出来,还同时识别出了屏幕中的代码和LEGO,并把这些结合起来分析我的个人爱好,甚至性格剖析,但是目前ChatGPT没有给我更深入的分析,所以接下来我问了他一个问题,他的回答让我有点小震惊。
所以我问他 “更深度剖析这个人,这个人的mbti会是什么?”,让我们来看看ChatGPT的回答:
为什么说震惊呢,因为我确实是INTJ,下图是我2022年测的:
3. 线框图识别并写前端代码
将代码复制到codepen当中预览一下,左侧分栏准确度还不错,但是右侧分栏就不太准了,我的按钮“空间展示”也没有展示出来。但是整体已经很牛了,对于我一个非前端人员来说,写这样一个页面,估计要半天时间吧。
4. 比赛内容识别
识别出了 亚运会、DOTA2、决赛,但是形式没有识别出来,当然这个太难了。
基本信息还都是基于图片上的内容,但是没有更深入的分析
5. 实拍人物识别
描述有点笼统,继续追问了一下
识别出了4个英雄,都是准确的!可以看出是先将图像转为文字描述,再根据文字描述丢入GPT,去进行逻辑推理。
总结
整体来猜一下ChatGPT的图像识别功能主要是基于文字OCR和目标检测,来识别图像中的主要部分,然后输出文字给GPT去进行逻辑总结。
针对一些特别的场景,需要给于更多的背景信息,甚至多轮的Prompt来给出更准确的输出。
接下来可以进一步思考一下,可以有哪些更深入的玩法。