GPT-4V的挑战者?Gemini在视觉专业方面的早期探索

264 阅读2分钟

一、论文信息

Multimodal-Large-Language-Models.png

二、概要

本文探讨了Google开发的多模态大型语言模型(MLLM) Gemini的功能,并将其与OpenAI的GPT-4V进行了比较。作者在四个领域对Gemini的视觉理解能力进行了初步探索:基本感知、高级认知、挑战性视觉任务和各种专家能力。他们发现Gemini和GPT-4V表现出相当的视觉推理能力,尽管他们的回答风格不同。作者还在为mllm设计的MME基准上评估了Gemini的性能,并发现它展示了令人印象深刻的多模态理解。他们得出结论,Gemini有可能挑战GPT-4V在多模式学习方面的领先地位。然而,他们也注意到mlm的常见问题,如视觉理解、逻辑推理和提示鲁棒性,这表明人工通用智能还有很长的路要走。

主要内容:

  • Gemini是Google开发的一个多模态大型语言模型,本文将Gemini与OpenAI的GPT-4V进行了比较。
  • Gemini的视觉理解能力表现在四个方面:基本感知、高级认知、挑战性视觉任务和各种专业能力。
  • Gemini和GPT-4V表现出相当的视觉推理能力,但有不同的回答风格。
  • Gemini在MME测试中表现良好,展现出令人印象深刻的多模式理解能力。
  • Gemini有潜力挑战GPT-4V在多模式学习领域的领先地位。
  • mlm的常见问题包括视觉理解、逻辑推理和提示鲁棒性,通用人工智能还有很长的路要走。

三、实验示例

  • 空间关系识别结果。这三种模型都不能正确回答。红色表示错误的答案。黄色表示没有能力完成任务。 Multimodal-Large-Language-Models1.png

  • 对象计数结果。绿色表示正确答案。红色表示错误的答案。

Multimodal-Large-Language-Models2.png