元哥开讲:Prompt Engineering(九)让AI学会“反思”与“纠错”:ReAct与Reflexion的心法

34 阅读6分钟

嘿,各位老铁,元哥的Prompt课堂又开课了!

在上一期,咱们给AI注入了“理科魂”,让它学会了用写代码的方式(PAL)来解决棘手的逻辑和数学题。现在的AI,可以说是“文理兼修”,越来越像个“六边形战士”了。

但它还缺了最关键的一样东西——灵魂

之前的AI,更像一个绝对服从的机器人。你给指令,它就执行,撞了南墙也不知道回头。它不会在行动中调整自己,更不会在失败后总结经验。

今天,咱们就要来给AI“画龙点睛”,注入灵魂,教会它两招绝世心法——“反思”“纠错”

第一式:边想边做,边做边改——ReAct框架

我们人类是怎么解决复杂问题的?绝对不是闷头干到底。我们会“走一步,看一步”,根据情况随时调整策略。

ReAct(Reason + Act)框架,就是模仿人类这种“边想边做”的模式,它把“思考链”(Reasoning)和“行动”(Acting)这两件事完美地缝合在了一起。

这就好比一个正在破案的侦探(AI)。 他不是一开始就制定好所有计划,而是打开他的探案笔记,一步步记录自己的“思考→行动→观察”循环。

【元哥举个栗子】: 这是一个需要多次查找才能解决的“多跳问题”(Multi-hop Question)。

问题: 《流浪地球》的原著作者的另一部被改编成电视剧的著名作品是什么?

一个掌握了ReAct框架的AI,它的“探案笔记”会是这样的:

思考 1: 我需要先找出《流浪地球》的原著作者是谁。 行动 1: Search[《流浪地球》原著作者] 观察 1: (搜索引擎返回)《流浪地球》的作者是刘慈欣。

思考 2: 好的,作者是刘慈欣。现在我需要找出刘慈欣写的、并且被改编成电视剧的另一部著名作品。 行动 2: Search[刘慈欣 著名作品 改编 电视剧] 观察 2: (搜索引擎返回)刘慈欣的著名长篇小说《三体》已被改编成多版电视剧,并广受好评。

思考 3: 我找到了答案。《三体》是刘慈欣的另一部被改编成电视剧的著名作品。 行动 3: Finish[三体]

看到了吗?ReAct的精髓,就是这个 “思考→行动→观察” 的闭环。AI在每一步行动后,都会根据观察到的新信息,来更新自己的思考,然后决定下一步该干什么。这让AI拥有了极强的“动态规划”和“实时纠错”能力,不再是一个僵硬的执行者。

第二式:事后复盘,持续进化——Reflexion框架

ReAct教会了AI“边做边改”,但如果整个任务最终还是失败了,怎么办?比如侦探最后抓错了人。

这时候,就需要更高阶的心法——“事后复盘”,也就是Reflexion(反思)框架。

Reflexion的核心,是让AI在一次完整的尝试(无论成功或失败)后,拥有“自我反省、总结经验”的能力。它通过一个**“演员-评估者-反思者”**的模型来实现。

这就好比,你手下的实习生第一次独立负责一个项目,结果搞砸了。

  • 演员(Actor): 实习生本人,他执行了整个项目。
  • 评估者(Evaluator): 他的主管,告诉他:“项目失败了,客户很不满意。”
  • 反思者(Self-Reflector): 实习生自己,在收到“失败”的反馈后,写了一份“项目复盘报告”。他在报告里写道:“这次项目失败,核心原因是我在第二步错误地估计了市场规模。下次再遇到类似任务,我必须先用两种以上的方法交叉验证市场数据。

这份“复盘报告”,就会被存入公司的“知识库”(AI的记忆)里。当他下一次接到类似的项目时,他会先看一眼这份报告,提醒自己:“上次在这儿摔过跤,这次可不能再犯了!”

【元哥举个栗子】: 这是一个简单的“文字小游戏”任务。

目标: 去厨房,拿起苹果。 当前位置: 客厅。你知道厨房在客厅的西边。

第一次尝试(Trial 1):

行动轨迹: > go east (向东走) You hit a wall. (你撞墙了) 评估结果 (Evaluator): FAILED (任务失败)

自我反思 (Self-Reflection): AI被要求对上面的失败轨迹进行反思,它生成了这样的“复盘报告”:“我在客厅里错误地向东走了,结果撞墙了。正确的方向应该是西边,因为厨房在客厅的西边。”

第二次尝试(Trial 2): AI在开始第二次尝试前,它的Prompt里会被塞进上面这段“复盘报告”作为额外上下文。

记忆: 你上一次的尝试失败了。反思:我在客厅里错误地向东走了,结果撞墙了。正确的方向应该是西边,因为厨房在客厅的西-边。

目标: 去厨房,拿起苹果。 当前位置: 客厅。你知道厨房在客厅的西边。

行动轨迹: > go west (向西走) You are in the kitchen. (你现在在厨房) > take apple (拿起苹果) You take the apple. (你拿起了苹果) 评估结果 (Evaluator): SUCCESS (任务成功)

通过这种“行动→评估→反思→再行动”的循环,AI就能实现真正的“从失败中学习”,在一次次的尝试中,不断地自我迭代,持续进化。

元哥小结

今天这两招“心法”,正式让我们的AI拥有了“灵魂”:

  1. ReAct: 赋予AI“临场反应”的能力,通过“思考-行动-观察”的循环,让它在任务中动态调整策略。
  2. Reflexion: 赋予AI“事后复盘”的能力,通过“演员-评估-反思”的架构,让它在失败中总结经验,并在下一次尝试中进行规避。

一个既能实时纠错,又懂事后反思的AI,已经非常接近我们理想中的“智能体”(Agent)了。

到此为止,我们的AI已经聪明得有点吓人了。但它始终有一个巨大的限制——它是个“盲人”,活在纯文本的世界里。如果,它能看懂图片,听懂声音呢?

下一期,也是我们这个系列名副其实的“终极篇章”,元哥将带大家一起探索,如何让AI拥有“五感”,进入图文并茂、声色犬马的“多模态”世界!千万不要错过!

【引用说明】

本文的创作灵感和核心知识点来源于《Prompt Engineering Guide》网站的技术文档及相关论文。

  1. ReAct: www.promptingguide.ai/techniques/…
  2. Reflexion: www.promptingguide.ai/techniques/…
  3. ReAct Paper: arxiv.org/abs/2210.03…
  4. Reflexion Paper: arxiv.org/abs/2303.11…

大家也可微信搜索“极客纪元”并关注我,获得更多分享。

扫码_搜索联合传播样式-标准色版.png