GPT-4o 发布会上的图片识别和语音交互让人印象深刻,图片识别是最基本的能力,国内的各家大模型对多模态的支持怎么样了?我用一张图片测试了一圈,满分10分:

首先头部大模型打个样:
ChatGPT:识别出来纸杯和印字,而且还认出来杯子里面的菊花茶,语气笃定;9分
Claude:识别到了纸杯及上面的内容,但没有识别出来菊花茶,而且把背景里的柴犬识别错了;4分
Gemini:菊花茶识别成咖啡,0分
通义千问:识别出来杯子和图案,还有菊花茶,超过预期,9分
讯飞星火:识别出来杯子和图案,但是没有识别菊花茶,另外周边的物件都识别出来了,6分
豆包:居然不支持多模态,负分
文心一言:识别到杯子和图案的意思,但是没识别出来菊花茶,周边物品识别也OK,6分
智谱清言:视觉中心的杯子和菊花茶都识别到了,周边物品也OK,语言干练,但是仅仅是罗列,没有描述,7分
海螺AI:不支持多模态,负分
天工:不支持多模态,负分
展开
江昪于2024-05-14 06:53发布的图片
江昪于2024-05-14 06:53发布的图片
江昪于2024-05-14 06:53发布的图片
江昪于2024-05-14 06:53发布的图片
江昪于2024-05-14 06:53发布的图片
江昪于2024-05-14 06:53发布的图片
江昪于2024-05-14 06:53发布的图片
江昪于2024-05-14 06:53发布的图片
江昪于2024-05-14 06:53发布的图片
15