元哥开讲：Prompt Engineering（十）AI睁开双眼看世界！图文并茂的“多模态思维链”嘿，各位一路追到这里的

嘿，各位一路追到这里的老铁、未来的“AI魔法师”们，我是元哥。

今天，我们的Prompt Engineering系列，来到了“提示词技巧”部分的最后一讲。在过去的九篇文章里，我们把一个“傻白甜”的语言模型，一步步调教成了会思考、会用工具、会写代码、甚至会自我反思的“六边形战士”。

但直到现在，它依然有个最根本的遗憾——它是个“盲人”，活在一个由0和1构成的纯文本世界里。

今天，我们就要为它点亮一盏关键的灯，赋予它“视觉”，让它睁开双眼，看看这个五彩斑斓的真实世界。欢迎来到Prompt Engineering的多模态时代！

补天裂石：什么是“多模态”？

在聊“心法”之前，咱们得先搞懂一个词：“多模态”（Multimodal）。

这词儿听着唬人，但元哥用大白话一说你就懂了。

咱们人类是怎么感知世界的？靠五感：视觉、听觉、嗅觉、味觉、触觉。每一种“感觉”，就是一个“模态”。我们的大脑，能把眼睛看到的画面、耳朵听到的声音、鼻子闻到的气味，完美地融合在一起，形成对世界的完整认知。

过去的AI，基本都是“单模态”的。比如GPT-3，它就是个“听觉”模型，只能处理文字；比如Stable Diffusion，它是个“视觉”模型，只能处理图片。它们各管一摊，互不相通。

而**“多模态AI”，就是要打破这种“感官隔离”，让一个AI模型，能同时理解文字、图片、声音、视频**等多种信息。比如你给它一张“猫在弹钢琴”的图片，再问它：“这只猫在干啥？”，它能看懂图片，并用文字回答你：“它在弹钢琴”。

终极心法：多模态思维链 (Multimodal CoT)

好了，概念搞懂，上硬菜！

直接让AI“看图说话”有时会出错，尤其是在需要推理的时候。为了解决这个问题，研究者们提出了“多模态思维链”（Multimodal Chain-of-Thought）。它把咱们第三期学的“思维链”和多模态结合，但玩法上有了更精妙的设计。

它的核心，不再是让AI“一口气”生成思考步骤和答案，而是把任务拆解成了两个阶段，极大减少了AI“胡说八道”的可能。

这就好比，你让福尔摩斯看一个复杂的犯罪现场照片，然后破案。

错误的做法： “福尔摩斯，看图，然后告诉我凶手是谁！”（一步到位，容易出错）
正确（Multimodal-CoT）的做法：
- 第一步（生成推理）： “福尔摩斯，请只看这张照片，把你所有的观察和推理过程，只用文字写下来。”
- 第二步（推断答案）： “福尔摩斯，现在结合你的推理笔记和原始照片，告诉我最终的凶手是谁。”

这个“先推理，再回答”的两阶段过程，就是Multimodal-CoT的精髓。

【玩法解密】： 这个框架包含两个阶段：

推理生成（Rationale Generation）： 在这个阶段，模型接收“图片+问题”作为输入，但它的任务不是回答问题，而是生成一段纯文字的、解决该问题的“思考步骤”（Rationale）。
答案推断（Answer Inference）： 在这个阶段，模型接收“图片+问题+上一步生成的思考步骤”作为输入，最终给出答案。

通过把“思考”和“回答”分开，AI可以先不受干扰地、专注地把逻辑想清楚。有了这份逻辑清晰的“草稿”，第二步回答时自然就更准确、更可靠了。

【元哥举个栗子】： 这是一个需要结合图片信息和数学计算的任务。

图片： 一张简单的柱状图，显示“产品A”销量是100万，“产品B”销量是150万。 问题： “产品B比产品A的销量高出百分之多少？”

一个掌握了Multimodal-CoT的AI，会这样分两步解决：

第一阶段：Prompt它生成“思考步骤”

输入： [柱状图图片] 问题：“产品B比产品A的销量高出百分之多少？”

输出（AI生成的纯文字推理）： Rationale: 首先，我需要从图中读取两个产品的销量。产品A的销量是100万。产品B的销量是150万。接着，计算两者之差，即 150 - 100 = 50万。最后，计算这个差值相对于产品A的百分比，也就是 (50 / 100) * 100%。

第二阶段：Prompt它结合“思考步骤”来回答

输入： [柱状图图片] 问题：“产品B比产品A的销量高出百分之多少？” Rationale: 首先，我需要从图中读取两个产品的销量。产品A的销量是100万。产品B的销量是150万。接着，计算两者之差，即 150 - 100 = 50万。最后，计算这个差值相对于产品A的百分比，也就是 (50 / 100) * 100%。

输出（AI生成的最终答案）： Answer: 50%

通过这个两步走的过程，AI的每一步都变得有据可循，即使是复杂的图文混合推理题，也能被清晰地拆解和解决。

元哥小结：技巧篇的尾声

到这里，《元哥开讲：Prompt Engineering》系列的“提示词技巧”部分就告一段落了。

我们从最基础的“对话法则”，一路走到了图文并茂的“多模态思维链”。我们一起见证了，通过不断精进与AI的“沟通的艺术”，可以让它变得多么强大。

但你以为这就结束了吗？不，这只是一个开始！

我们已经把AI调教成了一个能看、能想、能用工具、会反思的超级“个体”。但是，它还只是一个在沙箱里听从我们指令的“工具人”。

如果我们把这些强大的能力整合起来，让它拥有自己的“人生目标”，成为一个能自主完成复杂长期任务的**“AI代理”（AI Agent）**呢？它在真实世界里有哪些惊人的应用？又会带来哪些我们必须警惕的伦理风险？

下一阶段，元哥将带大家走出“提示词技巧”的范畴，进入更宏大、更科幻、也更激动人心的**“AI智能体”**世界！敬请期待！

【引用说明】

本文的创作灵感和核心知识点来源于《Prompt Engineering Guide》网站的技术文档及相关论文。

Multimodal CoT Paper: arxiv.org/abs/2302.00…
Examples of Prompts: www.promptingguide.ai/introductio…

大家也可微信搜索“极客纪元”并关注我，获得更多分享。

扫码_搜索联合传播样式-标准色版.png