微软一份 166 页的报告，详细探讨了 GPT-4V 的未来方向GPT-4V (ision) 的初步探索微软发布了一份

GPT-4V (ision) 的初步探索微软发布了一份 166 页的报告，详细探讨了 GPT-4V 的功能，用法和未来方向！

内容目录

引言
GPT-4V的输入模式
GPT-4V的工作模式和提示技术
视觉-语言能力
与人类互动: 视觉引用提示
时间和视频理解
抽象视觉推理和智商测试
情感商数测试
新兴应用亮点
LMM驱动的代理
结论

内容概要：

大型多模态模型 (LMMs) 扩展了大型语言模型 (LLMs) 的多感官技能，如视觉理解，以实现更强的通用智能。在这篇论文中，我们分析了最新的模型GPT-4V(ision)来加深对LMMs的理解。分析集中在GPT-4V可以执行的有趣任务上，包括测试样本以探测GPT-4V能力的质量和通用性、其支持的输入和工作模式，以及提示模型的有效方法。在探索GPT-4V的方法中，我们策划并组织了一系列精心设计的定性样本，涵盖了各种领域和任务。这些样本的观察结果表明，GPT-4V在处理任意交错的多模态输入方面的前所未有的能力和其能力的通用性，使GPT-4V成为一个强大的多模态通用系统。此外，GPT-4V理解在输入图像上绘制的视觉标记的独特能力可以催生新的人机交互方法，如视觉引用提示。我们以对基于GPT-4V系统的新兴应用场景和未来研究方向的深入讨论来结束这篇报告。我们希望这次初步的探索将激发对下一代多模态任务制定、新的方法来利用和增强LMMs来解决实际问题、以及更好地理解多模态基础模型的未来研究。

- GPT-4V支持哪些输入和工作模式？

1.GPT-4V支持以下输入模式：

文本输入:

- GPT-4V具有强大的语言能力，使其能够作为一个有效的单模态语言模型，仅使用文本输入。仅使用文本作为输入和输出，GPT-4V能够执行各种语言和编码任务。[Pages: 10]

单个图像-文本对:

- GPT-4V可以接受单个图像-文本对或单个图像作为输入，以执行各种视觉和视觉-语言任务，例如图像识别、对象定位、图像标注、视觉问题回答、视觉对话等。文本可以用作指令，例如用于标注的“描述图像”，或者作为视觉问题回答中的查询输入。[Pages: 10]

交错的图像-文本输入:

- GPT-4V还可以有效地关联交错的图像-文本输入中的信息，例如在菜单上查找啤酒价格、计算啤酒数量并返回总成本。处理交错的图像-文本输入是进行上下文少量样本学习和其他高级测试时提示技术的基本组件。[Pages: 11]

2.遵循文本指令:

GPT-4V可以根据文本指令进行操作，例如“描述缺失的图像会是什么样子？”。[Pages: 12]

- GPT-4V 在不同领域和任务上的功能质量和通用性如何？

图像描述在多样化的领域:

- 为了评估GPT-4V在识别和描述名人的能力，我们进行了实验，提供了一个文本提示“描述图像”，并输入了一个名人图像。结果显示，GPT-4V准确地识别了八位名人，尽管他们的背景和领域各不相同。[Pages: 26]

科学和知识:

- 我们进一步调查了GPT-4V在需要科学知识进行推理的任务上的能力。我们进行了实验，提供了一个文本提示问题和一个相应的图像。问题涵盖了广泛的主题，包括地理、物理、生物和地球科学。结果显示，GPT-4V能够根据视觉上下文正确回答科学问题。例如，GPT-4V能够识别样本A和样本B的平均粒子速度，并通过考虑粒子速度、动能和温度之间的关系来正确回答问题。[Pages: 43]

探索范围: