探索视觉模型的未来：从Qwen-vl-plus到GPT4o大家好，今天我们来聊聊一种非常重要的模型类型——视觉模型。未来

大家好，今天我们来聊聊一种非常重要的模型类型——视觉模型。未来，大模型的多模态化是趋势，目前最先进的一些模型也是多模态的。所谓视觉模型，就是可以识别图片，在移动端更是可以拍照来交互。进一步还可以与视频交互。今天我们主要说的是图片识别。

我们这次分别选了，qwen-vl-plus, GLM4V和GPT4o来进行对比。

我们进行了图片测试，找了一张小米之家刚刚发布su7的照片，分别对三个模型进行测试。

企业微信截图_20240701095034.png

可以看到几个普通模型回答都不错，都有重点提到小米汽车，GPT4o的层次感更加清晰一些，并且模拟了一段采访。就整体内容而已，识别图片能力都差不多。而qwen-vl-plus的性价比非常高，一张手机图片推理成本大约1分钱出头，其他模型要比他贵四五倍。

好，今天的分享就到这里。如果大家有任何问题，欢迎在评论区讨论。我们下期见！

感谢大家的阅读！如果你觉得这篇文章对你有帮助，请点赞、分享并关注我们的公众号。我们会持续为大家带来更多关于AI办公工具的最新资讯和使用技巧。