探索视觉模型的未来:从Qwen-vl-plus到GPT4o

277 阅读1分钟

大家好,今天我们来聊聊一种非常重要的模型类型——视觉模型。未来,大模型的多模态化是趋势,目前最先进的一些模型也是多模态的。所谓视觉模型,就是可以识别图片,在移动端更是可以拍照来交互。进一步还可以与视频交互。今天我们主要说的是图片识别。

我们这次分别选了,qwen-vl-plus, GLM4V和GPT4o来进行对比。

我们进行了图片测试,找了一张小米之家刚刚发布su7的照片,分别对三个模型进行测试。

企业微信截图_20240701095034.png

  • Qwen-vl-plus

image.png

  • GLM4V

image.png

  • GPT4o

image.png

可以看到几个普通模型回答都不错,都有重点提到小米汽车,GPT4o的层次感更加清晰一些,并且模拟了一段采访。就整体内容而已,识别图片能力都差不多。而qwen-vl-plus的性价比非常高,一张手机图片推理成本大约1分钱出头,其他模型要比他贵四五倍。

好,今天的分享就到这里。如果大家有任何问题,欢迎在评论区讨论。我们下期见!

感谢大家的阅读!如果你觉得这篇文章对你有帮助,请点赞、分享并关注我们的公众号。我们会持续为大家带来更多关于AI办公工具的最新资讯和使用技巧。