一、论文信息
- 论文题目:A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise
- 论文链接:arxiv.org/abs/2312.12…
- 代码仓库:github.com/BradyFU/Awe… 追踪MLLM前沿进展
二、概要
本文探讨了Google开发的多模态大型语言模型(MLLM) Gemini的功能,并将其与OpenAI的GPT-4V进行了比较。作者在四个领域对Gemini的视觉理解能力进行了初步探索:基本感知、高级认知、挑战性视觉任务和各种专家能力。他们发现Gemini和GPT-4V表现出相当的视觉推理能力,尽管他们的回答风格不同。作者还在为mllm设计的MME基准上评估了Gemini的性能,并发现它展示了令人印象深刻的多模态理解。他们得出结论,Gemini有可能挑战GPT-4V在多模式学习方面的领先地位。然而,他们也注意到mlm的常见问题,如视觉理解、逻辑推理和提示鲁棒性,这表明人工通用智能还有很长的路要走。
主要内容:
- Gemini是Google开发的一个多模态大型语言模型,本文将Gemini与OpenAI的GPT-4V进行了比较。
- Gemini的视觉理解能力表现在四个方面:基本感知、高级认知、挑战性视觉任务和各种专业能力。
- Gemini和GPT-4V表现出相当的视觉推理能力,但有不同的回答风格。
- Gemini在MME测试中表现良好,展现出令人印象深刻的多模式理解能力。
- Gemini有潜力挑战GPT-4V在多模式学习领域的领先地位。
- mlm的常见问题包括视觉理解、逻辑推理和提示鲁棒性,通用人工智能还有很长的路要走。
三、实验示例
-
空间关系识别结果。这三种模型都不能正确回答。红色表示错误的答案。黄色表示没有能力完成任务。
-
对象计数结果。绿色表示正确答案。红色表示错误的答案。