获得徽章 0
赞了这篇文章
赞了这篇沸点
GPT-4o 发布会上的图片识别和语音交互让人印象深刻,图片识别是最基本的能力,国内的各家大模型对多模态的支持怎么样了?我用一张图片测试了一圈,满分10分:
首先头部大模型打个样:
ChatGPT:识别出来纸杯和印字,而且还认出来杯子里面的菊花茶,语气笃定;9分
Claude:识别到了纸杯及上面的内容,但没有识别出来菊花茶,而且把背景里的柴犬识别错了;4分
Gemini:菊花茶识别成咖啡,0分
通义千问:识别出来杯子和图案,还有菊花茶,超过预期,9分
讯飞星火:识别出来杯子和图案,但是没有识别菊花茶,另外周边的物件都识别出来了,6分
豆包:居然不支持多模态,负分
文心一言:识别到杯子和图案的意思,但是没识别出来菊花茶,周边物品识别也OK,6分
智谱清言:视觉中心的杯子和菊花茶都识别到了,周边物品也OK,语言干练,但是仅仅是罗列,没有描述,7分
海螺AI:不支持多模态,负分
天工:不支持多模态,负分
首先头部大模型打个样:
ChatGPT:识别出来纸杯和印字,而且还认出来杯子里面的菊花茶,语气笃定;9分
Claude:识别到了纸杯及上面的内容,但没有识别出来菊花茶,而且把背景里的柴犬识别错了;4分
Gemini:菊花茶识别成咖啡,0分
通义千问:识别出来杯子和图案,还有菊花茶,超过预期,9分
讯飞星火:识别出来杯子和图案,但是没有识别菊花茶,另外周边的物件都识别出来了,6分
豆包:居然不支持多模态,负分
文心一言:识别到杯子和图案的意思,但是没识别出来菊花茶,周边物品识别也OK,6分
智谱清言:视觉中心的杯子和菊花茶都识别到了,周边物品也OK,语言干练,但是仅仅是罗列,没有描述,7分
海螺AI:不支持多模态,负分
天工:不支持多模态,负分
展开
15
32
赞了这篇沸点
赞了这篇沸点
赞了这篇沸点
加州大学圣迭戈分校发布了一致性大语言模型(CLLMs),这是一种新型并行解码器家族,能够在每个推理步骤高效地解码 n 个 token 序列,大幅降低推理延迟。实验表明,CLLMs 在保持生成质量的同时,生成速度提升 2.4 倍到 3.4 倍,与 Medusa2 和 Eagle 等快速推理技术相当甚至更优,且无需额外的内存开销。这一过程模仿了人类先在脑中形成完整句子再逐词表达的认知过程,可通过微调预训练LLM高效学习。
hao-ai-lab.github.io
展开
3
6
赞了这篇沸点
赞了这篇沸点
赞了这篇沸点
![[不失礼貌的微笑]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_16.9d17f6d.png)
![[奸笑]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_17.bcebf79.png)
![[捂脸]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_28.8981538.png)