元哥开讲：Prompt Engineering（九）让AI学会“反思”与“纠错”：ReAct与Reflexion的心法

嘿，各位老铁，元哥的Prompt课堂又开课了！

在上一期，咱们给AI注入了“理科魂”，让它学会了用写代码的方式（PAL）来解决棘手的逻辑和数学题。现在的AI，可以说是“文理兼修”，越来越像个“六边形战士”了。

但它还缺了最关键的一样东西——灵魂。

之前的AI，更像一个绝对服从的机器人。你给指令，它就执行，撞了南墙也不知道回头。它不会在行动中调整自己，更不会在失败后总结经验。

今天，咱们就要来给AI“画龙点睛”，注入灵魂，教会它两招绝世心法——“反思”与“纠错”！

第一式：边想边做，边做边改——ReAct框架

我们人类是怎么解决复杂问题的？绝对不是闷头干到底。我们会“走一步，看一步”，根据情况随时调整策略。

ReAct（Reason + Act）框架，就是模仿人类这种“边想边做”的模式，它把“思考链”（Reasoning）和“行动”（Acting）这两件事完美地缝合在了一起。

这就好比一个正在破案的侦探（AI）。 他不是一开始就制定好所有计划，而是打开他的探案笔记，一步步记录自己的“思考→行动→观察”循环。

【元哥举个栗子】： 这是一个需要多次查找才能解决的“多跳问题”（Multi-hop Question）。

问题： 《流浪地球》的原著作者的另一部被改编成电视剧的著名作品是什么？

一个掌握了ReAct框架的AI，它的“探案笔记”会是这样的：

思考 1: 我需要先找出《流浪地球》的原著作者是谁。 行动 1: Search[《流浪地球》原著作者] 观察 1: （搜索引擎返回）《流浪地球》的作者是刘慈欣。

思考 2: 好的，作者是刘慈欣。现在我需要找出刘慈欣写的、并且被改编成电视剧的另一部著名作品。 行动 2: Search[刘慈欣著名作品改编电视剧] 观察 2: （搜索引擎返回）刘慈欣的著名长篇小说《三体》已被改编成多版电视剧，并广受好评。

思考 3: 我找到了答案。《三体》是刘慈欣的另一部被改编成电视剧的著名作品。 行动 3: Finish[三体]

看到了吗？ReAct的精髓，就是这个 “思考→行动→观察” 的闭环。AI在每一步行动后，都会根据观察到的新信息，来更新自己的思考，然后决定下一步该干什么。这让AI拥有了极强的“动态规划”和“实时纠错”能力，不再是一个僵硬的执行者。

第二式：事后复盘，持续进化——Reflexion框架

ReAct教会了AI“边做边改”，但如果整个任务最终还是失败了，怎么办？比如侦探最后抓错了人。

这时候，就需要更高阶的心法——“事后复盘”，也就是Reflexion（反思）框架。

Reflexion的核心，是让AI在一次完整的尝试（无论成功或失败）后，拥有“自我反省、总结经验”的能力。它通过一个**“演员-评估者-反思者”**的模型来实现。

这就好比，你手下的实习生第一次独立负责一个项目，结果搞砸了。

演员（Actor）： 实习生本人，他执行了整个项目。
评估者（Evaluator）： 他的主管，告诉他：“项目失败了，客户很不满意。”
反思者（Self-Reflector）： 实习生自己，在收到“失败”的反馈后，写了一份“项目复盘报告”。他在报告里写道：“这次项目失败，核心原因是我在第二步错误地估计了市场规模。下次再遇到类似任务，我必须先用两种以上的方法交叉验证市场数据。”

这份“复盘报告”，就会被存入公司的“知识库”（AI的记忆）里。当他下一次接到类似的项目时，他会先看一眼这份报告，提醒自己：“上次在这儿摔过跤，这次可不能再犯了！”

【元哥举个栗子】： 这是一个简单的“文字小游戏”任务。

目标： 去厨房，拿起苹果。 当前位置： 客厅。你知道厨房在客厅的西边。

第一次尝试（Trial 1）：

行动轨迹: > go east (向东走) You hit a wall. (你撞墙了) 评估结果 (Evaluator): FAILED (任务失败)

自我反思 (Self-Reflection): AI被要求对上面的失败轨迹进行反思，它生成了这样的“复盘报告”：“我在客厅里错误地向东走了，结果撞墙了。正确的方向应该是西边，因为厨房在客厅的西边。”

第二次尝试（Trial 2）： AI在开始第二次尝试前，它的Prompt里会被塞进上面这段“复盘报告”作为额外上下文。

记忆： 你上一次的尝试失败了。反思：我在客厅里错误地向东走了，结果撞墙了。正确的方向应该是西边，因为厨房在客厅的西-边。

目标： 去厨房，拿起苹果。 当前位置： 客厅。你知道厨房在客厅的西边。

行动轨迹: > go west (向西走) You are in the kitchen. (你现在在厨房) > take apple (拿起苹果) You take the apple. (你拿起了苹果) 评估结果 (Evaluator): SUCCESS (任务成功)

通过这种“行动→评估→反思→再行动”的循环，AI就能实现真正的“从失败中学习”，在一次次的尝试中，不断地自我迭代，持续进化。

元哥小结

今天这两招“心法”，正式让我们的AI拥有了“灵魂”：

ReAct： 赋予AI“临场反应”的能力，通过“思考-行动-观察”的循环，让它在任务中动态调整策略。
Reflexion： 赋予AI“事后复盘”的能力，通过“演员-评估-反思”的架构，让它在失败中总结经验，并在下一次尝试中进行规避。

一个既能实时纠错，又懂事后反思的AI，已经非常接近我们理想中的“智能体”（Agent）了。

到此为止，我们的AI已经聪明得有点吓人了。但它始终有一个巨大的限制——它是个“盲人”，活在纯文本的世界里。如果，它能看懂图片，听懂声音呢？

下一期，也是我们这个系列名副其实的“终极篇章”，元哥将带大家一起探索，如何让AI拥有“五感”，进入图文并茂、声色犬马的“多模态”世界！千万不要错过！

【引用说明】

本文的创作灵感和核心知识点来源于《Prompt Engineering Guide》网站的技术文档及相关论文。

ReAct: www.promptingguide.ai/techniques/…
Reflexion: www.promptingguide.ai/techniques/…
ReAct Paper: arxiv.org/abs/2210.03…
Reflexion Paper: arxiv.org/abs/2303.11…

大家也可微信搜索“极客纪元”并关注我，获得更多分享。

扫码_搜索联合传播样式-标准色版.png