元哥开讲:Prompt Engineering(十)AI睁开双眼看世界!图文并茂的“多模态思维链”

28 阅读6分钟

嘿,各位一路追到这里的老铁、未来的“AI魔法师”们,我是元哥。

今天,我们的Prompt Engineering系列,来到了“提示词技巧”部分的最后一讲。在过去的九篇文章里,我们把一个“傻白甜”的语言模型,一步步调教成了会思考、会用工具、会写代码、甚至会自我反思的“六边形战士”。

但直到现在,它依然有个最根本的遗憾——它是个“盲人”,活在一个由0和1构成的纯文本世界里。

今天,我们就要为它点亮一盏关键的灯,赋予它“视觉”,让它睁开双眼,看看这个五彩斑斓的真实世界。欢迎来到Prompt Engineering的多模态时代

补天裂石:什么是“多模态”?

在聊“心法”之前,咱们得先搞懂一个词:“多模态”(Multimodal)。

这词儿听着唬人,但元哥用大白话一说你就懂了。

咱们人类是怎么感知世界的?靠五感:视觉、听觉、嗅觉、味觉、触觉。每一种“感觉”,就是一个“模态”。我们的大脑,能把眼睛看到的画面、耳朵听到的声音、鼻子闻到的气味,完美地融合在一起,形成对世界的完整认知。

过去的AI,基本都是“单模态”的。比如GPT-3,它就是个“听觉”模型,只能处理文字;比如Stable Diffusion,它是个“视觉”模型,只能处理图片。它们各管一摊,互不相通。

而**“多模态AI”,就是要打破这种“感官隔离”,让一个AI模型,能同时理解文字、图片、声音、视频**等多种信息。比如你给它一张“猫在弹钢琴”的图片,再问它:“这只猫在干啥?”,它能看懂图片,并用文字回答你:“它在弹钢琴”。

终极心法:多模态思维链 (Multimodal CoT)

好了,概念搞懂,上硬菜!

直接让AI“看图说话”有时会出错,尤其是在需要推理的时候。为了解决这个问题,研究者们提出了“多模态思维链”(Multimodal Chain-of-Thought)。它把咱们第三期学的“思维链”和多模态结合,但玩法上有了更精妙的设计。

它的核心,不再是让AI“一口气”生成思考步骤和答案,而是把任务拆解成了两个阶段,极大减少了AI“胡说八道”的可能。

这就好比,你让福尔摩斯看一个复杂的犯罪现场照片,然后破案。

  • 错误的做法: “福尔摩斯,看图,然后告诉我凶手是谁!”(一步到位,容易出错)
  • 正确(Multimodal-CoT)的做法:
    • 第一步(生成推理): “福尔摩斯,请只看这张照片,把你所有的观察和推理过程,只用文字写下来。”
    • 第二步(推断答案): “福尔摩斯,现在结合你的推理笔记和原始照片,告诉我最终的凶手是谁。”

这个“先推理,再回答”的两阶段过程,就是Multimodal-CoT的精髓。

【玩法解密】: 这个框架包含两个阶段:

  1. 推理生成(Rationale Generation): 在这个阶段,模型接收“图片+问题”作为输入,但它的任务不是回答问题,而是生成一段纯文字的、解决该问题的“思考步骤”(Rationale)。
  2. 答案推断(Answer Inference): 在这个阶段,模型接收“图片+问题+上一步生成的思考步骤”作为输入,最终给出答案。

通过把“思考”和“回答”分开,AI可以先不受干扰地、专注地把逻辑想清楚。有了这份逻辑清晰的“草稿”,第二步回答时自然就更准确、更可靠了。

【元哥举个栗子】: 这是一个需要结合图片信息和数学计算的任务。

图片: 一张简单的柱状图,显示“产品A”销量是100万,“产品B”销量是150万。 问题: “产品B比产品A的销量高出百分之多少?”

一个掌握了Multimodal-CoT的AI,会这样分两步解决:

第一阶段:Prompt它生成“思考步骤”

输入: [柱状图图片] 问题:“产品B比产品A的销量高出百分之多少?”

输出(AI生成的纯文字推理): Rationale: 首先,我需要从图中读取两个产品的销量。产品A的销量是100万。产品B的销量是150万。接着,计算两者之差,即 150 - 100 = 50万。最后,计算这个差值相对于产品A的百分比,也就是 (50 / 100) * 100%。

第二阶段:Prompt它结合“思考步骤”来回答

输入: [柱状图图片] 问题:“产品B比产品A的销量高出百分之多少?” Rationale: 首先,我需要从图中读取两个产品的销量。产品A的销量是100万。产品B的销量是150万。接着,计算两者之差,即 150 - 100 = 50万。最后,计算这个差值相对于产品A的百分比,也就是 (50 / 100) * 100%。

输出(AI生成的最终答案): Answer: 50%

通过这个两步走的过程,AI的每一步都变得有据可循,即使是复杂的图文混合推理题,也能被清晰地拆解和解决。

元哥小结:技巧篇的尾声

到这里,《元哥开讲:Prompt Engineering》系列的“提示词技巧”部分就告一段落了。

我们从最基础的“对话法则”,一路走到了图文并茂的“多模态思维链”。我们一起见证了,通过不断精进与AI的“沟通的艺术”,可以让它变得多么强大。

但你以为这就结束了吗?不,这只是一个开始!

我们已经把AI调教成了一个能看、能想、能用工具、会反思的超级“个体”。但是,它还只是一个在沙箱里听从我们指令的“工具人”。

如果我们把这些强大的能力整合起来,让它拥有自己的“人生目标”,成为一个能自主完成复杂长期任务的**“AI代理”(AI Agent)**呢?它在真实世界里有哪些惊人的应用?又会带来哪些我们必须警惕的伦理风险?

下一阶段,元哥将带大家走出“提示词技巧”的范畴,进入更宏大、更科幻、也更激动人心的**“AI智能体”**世界!敬请期待!

【引用说明】

本文的创作灵感和核心知识点来源于《Prompt Engineering Guide》网站的技术文档及相关论文。

  1. Multimodal CoT Paper: arxiv.org/abs/2302.00…
  2. Examples of Prompts: www.promptingguide.ai/introductio…

大家也可微信搜索“极客纪元”并关注我,获得更多分享。

扫码_搜索联合传播样式-标准色版.png