嘿,各位老铁,元哥的Prompt课堂又开课了!
在上一期,咱们给AI注入了“理科魂”,让它学会了用写代码的方式(PAL)来解决棘手的逻辑和数学题。现在的AI,可以说是“文理兼修”,越来越像个“六边形战士”了。
但它还缺了最关键的一样东西——灵魂。
之前的AI,更像一个绝对服从的机器人。你给指令,它就执行,撞了南墙也不知道回头。它不会在行动中调整自己,更不会在失败后总结经验。
今天,咱们就要来给AI“画龙点睛”,注入灵魂,教会它两招绝世心法——“反思”与“纠错”!
第一式:边想边做,边做边改——ReAct框架
我们人类是怎么解决复杂问题的?绝对不是闷头干到底。我们会“走一步,看一步”,根据情况随时调整策略。
ReAct(Reason + Act)框架,就是模仿人类这种“边想边做”的模式,它把“思考链”(Reasoning)和“行动”(Acting)这两件事完美地缝合在了一起。
这就好比一个正在破案的侦探(AI)。 他不是一开始就制定好所有计划,而是打开他的探案笔记,一步步记录自己的“思考→行动→观察”循环。
【元哥举个栗子】: 这是一个需要多次查找才能解决的“多跳问题”(Multi-hop Question)。
问题: 《流浪地球》的原著作者的另一部被改编成电视剧的著名作品是什么?
一个掌握了ReAct框架的AI,它的“探案笔记”会是这样的:
思考 1: 我需要先找出《流浪地球》的原著作者是谁。 行动 1: Search[《流浪地球》原著作者] 观察 1: (搜索引擎返回)《流浪地球》的作者是刘慈欣。
思考 2: 好的,作者是刘慈欣。现在我需要找出刘慈欣写的、并且被改编成电视剧的另一部著名作品。 行动 2: Search[刘慈欣 著名作品 改编 电视剧] 观察 2: (搜索引擎返回)刘慈欣的著名长篇小说《三体》已被改编成多版电视剧,并广受好评。
思考 3: 我找到了答案。《三体》是刘慈欣的另一部被改编成电视剧的著名作品。 行动 3: Finish[三体]
看到了吗?ReAct的精髓,就是这个 “思考→行动→观察” 的闭环。AI在每一步行动后,都会根据观察到的新信息,来更新自己的思考,然后决定下一步该干什么。这让AI拥有了极强的“动态规划”和“实时纠错”能力,不再是一个僵硬的执行者。
第二式:事后复盘,持续进化——Reflexion框架
ReAct教会了AI“边做边改”,但如果整个任务最终还是失败了,怎么办?比如侦探最后抓错了人。
这时候,就需要更高阶的心法——“事后复盘”,也就是Reflexion(反思)框架。
Reflexion的核心,是让AI在一次完整的尝试(无论成功或失败)后,拥有“自我反省、总结经验”的能力。它通过一个**“演员-评估者-反思者”**的模型来实现。
这就好比,你手下的实习生第一次独立负责一个项目,结果搞砸了。
- 演员(Actor): 实习生本人,他执行了整个项目。
- 评估者(Evaluator): 他的主管,告诉他:“项目失败了,客户很不满意。”
- 反思者(Self-Reflector): 实习生自己,在收到“失败”的反馈后,写了一份“项目复盘报告”。他在报告里写道:“这次项目失败,核心原因是我在第二步错误地估计了市场规模。下次再遇到类似任务,我必须先用两种以上的方法交叉验证市场数据。”
这份“复盘报告”,就会被存入公司的“知识库”(AI的记忆)里。当他下一次接到类似的项目时,他会先看一眼这份报告,提醒自己:“上次在这儿摔过跤,这次可不能再犯了!”
【元哥举个栗子】: 这是一个简单的“文字小游戏”任务。
目标: 去厨房,拿起苹果。 当前位置: 客厅。你知道厨房在客厅的西边。
第一次尝试(Trial 1):
行动轨迹:
> go east(向东走)You hit a wall.(你撞墙了) 评估结果 (Evaluator):FAILED(任务失败)自我反思 (Self-Reflection): AI被要求对上面的失败轨迹进行反思,它生成了这样的“复盘报告”:“我在客厅里错误地向东走了,结果撞墙了。正确的方向应该是西边,因为厨房在客厅的西边。”
第二次尝试(Trial 2): AI在开始第二次尝试前,它的Prompt里会被塞进上面这段“复盘报告”作为额外上下文。
记忆: 你上一次的尝试失败了。反思:我在客厅里错误地向东走了,结果撞墙了。正确的方向应该是西边,因为厨房在客厅的西-边。
目标: 去厨房,拿起苹果。 当前位置: 客厅。你知道厨房在客厅的西边。
行动轨迹:
> go west(向西走)You are in the kitchen.(你现在在厨房)> take apple(拿起苹果)You take the apple.(你拿起了苹果) 评估结果 (Evaluator):SUCCESS(任务成功)
通过这种“行动→评估→反思→再行动”的循环,AI就能实现真正的“从失败中学习”,在一次次的尝试中,不断地自我迭代,持续进化。
元哥小结
今天这两招“心法”,正式让我们的AI拥有了“灵魂”:
- ReAct: 赋予AI“临场反应”的能力,通过“思考-行动-观察”的循环,让它在任务中动态调整策略。
- Reflexion: 赋予AI“事后复盘”的能力,通过“演员-评估-反思”的架构,让它在失败中总结经验,并在下一次尝试中进行规避。
一个既能实时纠错,又懂事后反思的AI,已经非常接近我们理想中的“智能体”(Agent)了。
到此为止,我们的AI已经聪明得有点吓人了。但它始终有一个巨大的限制——它是个“盲人”,活在纯文本的世界里。如果,它能看懂图片,听懂声音呢?
下一期,也是我们这个系列名副其实的“终极篇章”,元哥将带大家一起探索,如何让AI拥有“五感”,进入图文并茂、声色犬马的“多模态”世界!千万不要错过!
【引用说明】
本文的创作灵感和核心知识点来源于《Prompt Engineering Guide》网站的技术文档及相关论文。
- ReAct: www.promptingguide.ai/techniques/…
- Reflexion: www.promptingguide.ai/techniques/…
- ReAct Paper: arxiv.org/abs/2210.03…
- Reflexion Paper: arxiv.org/abs/2303.11…
大家也可微信搜索“极客纪元”并关注我,获得更多分享。