GPT-4V (ision) 的初步探索 微软发布了一份 166 页的报告,详细探讨了 GPT-4V 的功能,用法和未来方向!
内容目录
-
引言
-
GPT-4V的输入模式
-
GPT-4V的工作模式和提示技术
-
视觉-语言能力
-
与人类互动: 视觉引用提示
-
时间和视频理解
-
抽象视觉推理和智商测试
-
情感商数测试
-
新兴应用亮点
-
LMM驱动的代理
-
结论
内容概要:
大型多模态模型 (LMMs) 扩展了大型语言模型 (LLMs) 的多感官技能,如视觉理解,以实现更强的通用智能。在这篇论文中,我们分析了最新的模型GPT-4V(ision)来加深对LMMs的理解。分析集中在GPT-4V可以执行的有趣任务上,包括测试样本以探测GPT-4V能力的质量和通用性、其支持的输入和工作模式,以及提示模型的有效方法。在探索GPT-4V的方法中,我们策划并组织了一系列精心设计的定性样本,涵盖了各种领域和任务。这些样本的观察结果表明,GPT-4V在处理任意交错的多模态输入方面的前所未有的能力和其能力的通用性,使GPT-4V成为一个强大的多模态通用系统。此外,GPT-4V理解在输入图像上绘制的视觉标记的独特能力可以催生新的人机交互方法,如视觉引用提示。我们以对基于GPT-4V系统的新兴应用场景和未来研究方向的深入讨论来结束这篇报告。我们希望这次初步的探索将激发对下一代多模态任务制定、新的方法来利用和增强LMMs来解决实际问题、以及更好地理解多模态基础模型的未来研究。
- GPT-4V支持哪些输入和工作模式?
1.GPT-4V支持以下输入模式:
文本输入:
-
- GPT-4V具有强大的语言能力,使其能够作为一个有效的单模态语言模型,仅使用文本输入。仅使用文本作为输入和输出,GPT-4V能够执行各种语言和编码任务。[Pages: 10]
单个图像-文本对:
-
- GPT-4V可以接受单个图像-文本对或单个图像作为输入,以执行各种视觉和视觉-语言任务,例如图像识别、对象定位、图像标注、视觉问题回答、视觉对话等。文本可以用作指令,例如用于标注的“描述图像”,或者作为视觉问题回答中的查询输入。[Pages: 10]
交错的图像-文本输入:
-
- GPT-4V还可以有效地关联交错的图像-文本输入中的信息,例如在菜单上查找啤酒价格、计算啤酒数量并返回总成本。处理交错的图像-文本输入是进行上下文少量样本学习和其他高级测试时提示技术的基本组件。[Pages: 11]
2.遵循文本指令:
-
GPT-4V可以根据文本指令进行操作,例如“描述缺失的图像会是什么样子?”。[Pages: 12]
- GPT-4V 在不同领域和任务上的功能质量和通用性如何?
图像描述在多样化的领域:
-
- 为了评估GPT-4V在识别和描述名人的能力,我们进行了实验,提供了一个文本提示“描述图像”,并输入了一个名人图像。结果显示,GPT-4V准确地识别了八位名人,尽管他们的背景和领域各不相同。[Pages: 26]
科学和知识:
-
- 我们进一步调查了GPT-4V在需要科学知识进行推理的任务上的能力。我们进行了实验,提供了一个文本提示问题和一个相应的图像。问题涵盖了广泛的主题,包括地理、物理、生物和地球科学。结果显示,GPT-4V能够根据视觉上下文正确回答科学问题。例如,GPT-4V能够识别样本A和样本B的平均粒子速度,并通过考虑粒子速度、动能和温度之间的关系来正确回答问题。[Pages: 43]
探索范围:
-
-
为了提供更全面的分析,覆盖广泛的领域、任务、工作模式和提示技术,我们主要选择了有趣的定性示例。尽管这种设计较为宽松,但我们相信这种有组织的探索集合将激发未来的工作,包括新兴的应用、下一代多模态任务制定以及开发基于LMM的先进智能系统。[Pages: 8,9]
-
- GPT-4V的有效使用和提示方式有哪些?
遵循文本指令:
-
- GPT-4V具有强大的理解和遵循文本指令的能力。指令为自然地定义和定制任意视觉-语言用例的期望输出提供了一种方法。例如,可以使用指令来为图像提供带有约束的描述,例如限制句子长度和使用的单词。[Pages: 15]
视觉引用提示:
-
- GPT-4V具有理解像素空间编辑的强大能力,例如在输入图像上绘制的视觉指针和场景文本。受此能力启发,我们讨论了“视觉引用提示”技术,该技术直接编辑输入图像以提示GPT-4V。例如,可以在图像上绘制视觉指针和场景文本来提示GPT-4V。[Pages: 8]
综合指令输入:
-
-
GPT-4V显示了在整合多模态指令时的通用性和灵活性,这表现为对多模态指令的人类般的理解和对未见任务的前所未有的适应能力。[Pages: 16]
-
PDF下载:arxiv.org/pdf/2309.17…
感谢阅读 欢迎点赞,收藏,评论