ChatGPT多模态初体验今天早上发现，ChatGPT终于给我开放了图片输入的功能，配合上之前的语音功能，新功能算是齐了

今天早上发现，ChatGPT终于给我开放了图片输入的功能，配合上之前的语音功能，新功能算是齐了，马上迫不及待的玩了一下：

哇塞！看出来4张专辑封面，已经让我非常震撼了！

这里尝试了进行了多图的识别，ChatGPT的图片识别不止把书的内容识别出来，还同时识别出了屏幕中的代码和LEGO，并把这些结合起来分析我的个人爱好，甚至性格剖析，但是目前ChatGPT没有给我更深入的分析，所以接下来我问了他一个问题，他的回答让我有点小震惊。

所以我问他 “更深度剖析这个人，这个人的mbti会是什么？”，让我们来看看ChatGPT的回答：

为什么说震惊呢，因为我确实是INTJ，下图是我2022年测的：

将代码复制到codepen当中预览一下，左侧分栏准确度还不错，但是右侧分栏就不太准了，我的按钮“空间展示”也没有展示出来。但是整体已经很牛了，对于我一个非前端人员来说，写这样一个页面，估计要半天时间吧。

识别出了亚运会、DOTA2、决赛，但是形式没有识别出来，当然这个太难了。

基本信息还都是基于图片上的内容，但是没有更深入的分析

描述有点笼统，继续追问了一下

识别出了4个英雄，都是准确的！可以看出是先将图像转为文字描述，再根据文字描述丢入GPT，去进行逻辑推理。

总结

整体来猜一下ChatGPT的图像识别功能主要是基于文字OCR和目标检测，来识别图像中的主要部分，然后输出文字给GPT去进行逻辑总结。

针对一些特别的场景，需要给于更多的背景信息，甚至多轮的Prompt来给出更准确的输出。

接下来可以进一步思考一下，可以有哪些更深入的玩法。