什么是Agent
目前业界没有一个简单易懂,并且达成共识的定义。我的理解是:Agent就是一个人。
Agent初级阶段:可以代替你去完成一项任务,达到某种目标。比如帮你点外卖并支付等,打车,购物,总结一周的工作写周报并邮件周知给别,登录考试系帮你完成考试等。
Agent终极阶段:既能帮你点外卖,又能替你考试,还能替你谈恋爱,反正就是能替代你。
Agent由哪些部分组成
即人由哪些部分组成:
- 思考能力:主要由大脑来完成,包含:智商,记忆(学历、专业、生活常识等)
- 执行能力:主要由身体来完成:获取信息,执行任务等,比如手,脚,眼睛,耳朵
- 沟通能力:嘴
- 协作能力:身体受大脑控制
思考能力
大模型的能力好坏可以理解为大脑智商的高低,比如DeepSeek R1,GPT 4,千问等。有了聪明的头脑,还要有Context/Memory,比如你清华计算机专业,毕业进入一家互联网公司当程序员,你除了具备基本的编程能力(在模型训练阶段已经具备),你还要公司内部一些技术栈的背景知识(比如Antd)和业务知识(要开发社交应用),这些就需要长期记忆(Memory),此时你接到一个需求,要在微信开发一个炸屎的表情包,那么所有和这个需求相关的信息就是你本次任务的上下文(Context)。Context偏短期记忆,比如一次会话。Memory偏长期记忆,比如业务的背景知识。
执行能力
有了这些还要有身体帮助我们执行任务,即Tools:
- 网络搜索
- 打开网页
- 执行命令
- 填充表单
- 打电话
- 查询数据库
等
沟通能力
即Agent之间可以进行通信,像人一样Agent之间可以互相交流,形成一个组织,统一对外提供服务/产品,根据提供能力的大小,还可以有不同的组织划分,比如公司内部的一个前端团队、整个技术团队、整个公司。目前Goole已经制定了Agent直接通信的协议-A2A。
说完Agent,聊一聊我们和大模型沟通的重要方式Prompt。
Prompt如何编写
Prompt的边界是无论模型怎么变都不会变的东西,无论模型升级还是切换模型,比如某个上班的周一你IQ90的大脑突然开了窍,增长到IQ120,此时此刻仍然不要忘记需要上班,只不过你拉磨的速度会快一些,但是磨出了的那一坨东西的本质还是不变的(可能会变多)。还有一个判断标准:假如这件事你让别人去做,需要告诉给他的信息,就是需要通过Prompt传递给大模型的。
如果你开了一家奶茶店,你是老板,你如何培训你的员工,你应该告诉他什么?
你是奶茶店的员工,可以卖各种饮品,根据顾客需要提供相应的产品。 柠檬水需要柠檬加水,¥4一杯。
大模型和普通代码的边界?
由于大模型生成结果存在一定的随机性(当然可以通过参数控制输出结果的随机概率)和执行效率低(耗能多,时间长),不是所有的场景都适合使用大模型来处理。所以需要考虑什么时候使用大模型,什么时候使用代码?判断标准就是目前人和代码的边界,哪些事情,目前需要人做的,哪些事情目前需要代码去做的。大模型的价值就是去做原来代码做不了,必须要人来做的事情,比如:
- 总结会议纪要。
- 客服。
- 代码CodeReview。
- 闲聊
和人的关系
大模型/Agent会进一步拉开人与人之间的差距,能力强的人相当于一个团队或者一个公司,同时也会变得更累,因为要思考的事情变得更多了;能力弱的人可能连最基础的工作岗位都被抢走,比如客服。旱的旱死,涝的涝死。
什么样的事情应该Agent去做,或者说什么样的事情Agent做更有价值?
除了技术考量,还要有社会因素的考量,考虑必须人做,而且人又不愿意做的事情:
- 打骚人电话(广告推销电话)
- 接骚扰电话 (手动狗头)
(照例:提供大模型处理之后的版本)
什么是 Agent?
目前业界对“Agent”(智能体)并没有一个简单易懂且达成共识的定义。我的核心观点是:Agent 本质上就是一个“数字人”。
- Agent 的初级阶段: 它能代替你完成特定任务,达成具体目标。例如:帮你点外卖并支付、打车、购物、总结一周工作撰写周报并邮件发送、甚至登录考试系统替你完成考试等。
- Agent 的终极阶段: 它能成为你的“全能替身”——既能帮你点外卖、替你考试,甚至(理论上)能替你处理更复杂的人际互动(比如“谈恋爱”)。总之,目标是能全面替代你在特定领域的活动。
Agent 由哪些部分组成?(“数字人”的构成)
既然 Agent 是“人”,它的组成也对应人的能力:
-
思考能力(“大脑”):
-
核心: 由大语言模型(LLM)提供,如 DeepSeek-R1、GPT-4、通义千问等。模型能力的高低可类比为“智商”差异。
-
记忆(“学历、经验”):
- 长期记忆 (Memory): 存储持久的背景知识。例如,一个负责开发的 Agent,除了基础编程能力(模型训练获得),还需要公司内部的技术栈(如 Antd)和业务知识(如社交应用开发)。这就像人的长期经验积累。
- 上下文 (Context): 处理当前任务所需的即时信息。例如,接到“开发微信炸屎表情包”的需求,所有与该任务直接相关的信息就构成了这次对话或任务的上下文。Context 更偏向短期工作记忆。
-
-
执行能力(“身体”):
-
由 工具 (Tools) 实现,使 Agent 能“动手动脚”去交互和操作:
- 网络搜索、打开网页、执行命令、填充表单
- 打电话、查询数据库等。
-
-
沟通能力(“嘴”):
- 指 Agent 之间或与用户交互的能力。目前 Google 已提出 Agent 间通信协议 A2A,目标是让 Agent 能像人一样协作,甚至组成“组织”(如技术团队、虚拟公司)共同提供服务。
聊完 Agent,再看我们与模型沟通的关键:Prompt(提示词)
如何编写有效的 Prompt?关键在于抓住其“不变”的核心:
-
Prompt 的边界是无论模型如何升级都不会改变的部分。就像你(智商90)突然开窍(智商120),周一依然要上班——虽然“拉磨”速度更快了,但“磨出来的东西”(任务本质)并未改变(顶多量更多)。
-
一个实用判断标准: 想象你作为老板要培训奶茶店员工,你会告诉他什么?
- 例如:“你是奶茶店员工,负责销售饮品。柠檬水的配方是柠檬加水,售价4元一杯。” 这些必须传达给员工的信息,就是你需要通过 Prompt 传递给大模型的指令。
大模型 vs. 传统代码的边界?
大模型生成结果存在随机性(可通过参数调节)和执行效率相对较低(耗能高、时延长)的特点。因此,并非所有场景都适合用大模型。关键在于区分:
-
传统代码擅长: 规则明确、需要高确定性、高效率的任务。
-
大模型/AI Agent 的价值所在: 解决传统代码做不了、必须由人来完成的事情。例如:
- 总结会议纪要
- 智能客服
- 代码 Code Review
- 自然对话(闲聊)
Agent 与人的关系(社会视角)
大模型和 Agent 可能进一步加剧人与人之间的差距:
- 能力强者: 可能像拥有一个团队甚至一家公司,效率倍增,但需要思考的层面也更深更广(可能“更累”)。
- 能力弱者: 原本依赖的基础岗位(如初级客服)可能被取代(“旱的旱死,涝的涝死”)。
什么样的事情更适合或更应该让 Agent 去做?
除了技术可行性,还需考虑社会需求——那些必须由人做,但人普遍不愿意做的事情:
- 主动拨打推销电话(打骚扰电话)
- 被动接听推销电话(接骚扰电话)(手动狗头)