嘿,各位一路追到这里的老铁、未来的“AI魔法师”们,我是元哥。
今天,我们的Prompt Engineering系列,来到了“提示词技巧”部分的最后一讲。在过去的九篇文章里,我们把一个“傻白甜”的语言模型,一步步调教成了会思考、会用工具、会写代码、甚至会自我反思的“六边形战士”。
但直到现在,它依然有个最根本的遗憾——它是个“盲人”,活在一个由0和1构成的纯文本世界里。
今天,我们就要为它点亮一盏关键的灯,赋予它“视觉”,让它睁开双眼,看看这个五彩斑斓的真实世界。欢迎来到Prompt Engineering的多模态时代!
补天裂石:什么是“多模态”?
在聊“心法”之前,咱们得先搞懂一个词:“多模态”(Multimodal)。
这词儿听着唬人,但元哥用大白话一说你就懂了。
咱们人类是怎么感知世界的?靠五感:视觉、听觉、嗅觉、味觉、触觉。每一种“感觉”,就是一个“模态”。我们的大脑,能把眼睛看到的画面、耳朵听到的声音、鼻子闻到的气味,完美地融合在一起,形成对世界的完整认知。
过去的AI,基本都是“单模态”的。比如GPT-3,它就是个“听觉”模型,只能处理文字;比如Stable Diffusion,它是个“视觉”模型,只能处理图片。它们各管一摊,互不相通。
而**“多模态AI”,就是要打破这种“感官隔离”,让一个AI模型,能同时理解文字、图片、声音、视频**等多种信息。比如你给它一张“猫在弹钢琴”的图片,再问它:“这只猫在干啥?”,它能看懂图片,并用文字回答你:“它在弹钢琴”。
终极心法:多模态思维链 (Multimodal CoT)
好了,概念搞懂,上硬菜!
直接让AI“看图说话”有时会出错,尤其是在需要推理的时候。为了解决这个问题,研究者们提出了“多模态思维链”(Multimodal Chain-of-Thought)。它把咱们第三期学的“思维链”和多模态结合,但玩法上有了更精妙的设计。
它的核心,不再是让AI“一口气”生成思考步骤和答案,而是把任务拆解成了两个阶段,极大减少了AI“胡说八道”的可能。
这就好比,你让福尔摩斯看一个复杂的犯罪现场照片,然后破案。
- 错误的做法: “福尔摩斯,看图,然后告诉我凶手是谁!”(一步到位,容易出错)
- 正确(Multimodal-CoT)的做法:
- 第一步(生成推理): “福尔摩斯,请只看这张照片,把你所有的观察和推理过程,只用文字写下来。”
- 第二步(推断答案): “福尔摩斯,现在结合你的推理笔记和原始照片,告诉我最终的凶手是谁。”
这个“先推理,再回答”的两阶段过程,就是Multimodal-CoT的精髓。
【玩法解密】: 这个框架包含两个阶段:
- 推理生成(Rationale Generation): 在这个阶段,模型接收“图片+问题”作为输入,但它的任务不是回答问题,而是生成一段纯文字的、解决该问题的“思考步骤”(Rationale)。
- 答案推断(Answer Inference): 在这个阶段,模型接收“图片+问题+上一步生成的思考步骤”作为输入,最终给出答案。
通过把“思考”和“回答”分开,AI可以先不受干扰地、专注地把逻辑想清楚。有了这份逻辑清晰的“草稿”,第二步回答时自然就更准确、更可靠了。
【元哥举个栗子】: 这是一个需要结合图片信息和数学计算的任务。
图片: 一张简单的柱状图,显示“产品A”销量是100万,“产品B”销量是150万。 问题: “产品B比产品A的销量高出百分之多少?”
一个掌握了Multimodal-CoT的AI,会这样分两步解决:
第一阶段:Prompt它生成“思考步骤”
输入:
[柱状图图片]问题:“产品B比产品A的销量高出百分之多少?”输出(AI生成的纯文字推理):
Rationale: 首先,我需要从图中读取两个产品的销量。产品A的销量是100万。产品B的销量是150万。接着,计算两者之差,即 150 - 100 = 50万。最后,计算这个差值相对于产品A的百分比,也就是 (50 / 100) * 100%。
第二阶段:Prompt它结合“思考步骤”来回答
输入:
[柱状图图片]问题:“产品B比产品A的销量高出百分之多少?”Rationale: 首先,我需要从图中读取两个产品的销量。产品A的销量是100万。产品B的销量是150万。接着,计算两者之差,即 150 - 100 = 50万。最后,计算这个差值相对于产品A的百分比,也就是 (50 / 100) * 100%。输出(AI生成的最终答案):
Answer: 50%
通过这个两步走的过程,AI的每一步都变得有据可循,即使是复杂的图文混合推理题,也能被清晰地拆解和解决。
元哥小结:技巧篇的尾声
到这里,《元哥开讲:Prompt Engineering》系列的“提示词技巧”部分就告一段落了。
我们从最基础的“对话法则”,一路走到了图文并茂的“多模态思维链”。我们一起见证了,通过不断精进与AI的“沟通的艺术”,可以让它变得多么强大。
但你以为这就结束了吗?不,这只是一个开始!
我们已经把AI调教成了一个能看、能想、能用工具、会反思的超级“个体”。但是,它还只是一个在沙箱里听从我们指令的“工具人”。
如果我们把这些强大的能力整合起来,让它拥有自己的“人生目标”,成为一个能自主完成复杂长期任务的**“AI代理”(AI Agent)**呢?它在真实世界里有哪些惊人的应用?又会带来哪些我们必须警惕的伦理风险?
下一阶段,元哥将带大家走出“提示词技巧”的范畴,进入更宏大、更科幻、也更激动人心的**“AI智能体”**世界!敬请期待!
【引用说明】
本文的创作灵感和核心知识点来源于《Prompt Engineering Guide》网站的技术文档及相关论文。
- Multimodal CoT Paper: arxiv.org/abs/2302.00…
- Examples of Prompts: www.promptingguide.ai/introductio…
大家也可微信搜索“极客纪元”并关注我,获得更多分享。