关于Agent和大模型的一些思考

553 阅读8分钟

什么是Agent

目前业界没有一个简单易懂,并且达成共识的定义。我的理解是:Agent就是一个人

Agent初级阶段:可以代替你去完成一项任务,达到某种目标。比如帮你点外卖并支付等,打车,购物,总结一周的工作写周报并邮件周知给别,登录考试系帮你完成考试等。

Agent终极阶段:既能帮你点外卖,又能替你考试,还能替你谈恋爱,反正就是能替代你。

Agent由哪些部分组成

即人由哪些部分组成:

  • 思考能力:主要由大脑来完成,包含:智商,记忆(学历、专业、生活常识等)
  • 执行能力:主要由身体来完成:获取信息,执行任务等,比如手,脚,眼睛,耳朵
  • 沟通能力:嘴
  • 协作能力:身体受大脑控制

思考能力

大模型的能力好坏可以理解为大脑智商的高低,比如DeepSeek R1,GPT 4,千问等。有了聪明的头脑,还要有Context/Memory,比如你清华计算机专业,毕业进入一家互联网公司当程序员,你除了具备基本的编程能力(在模型训练阶段已经具备),你还要公司内部一些技术栈的背景知识(比如Antd)和业务知识(要开发社交应用),这些就需要长期记忆(Memory),此时你接到一个需求,要在微信开发一个炸屎的表情包,那么所有和这个需求相关的信息就是你本次任务的上下文(Context)。Context偏短期记忆,比如一次会话。Memory偏长期记忆,比如业务的背景知识。

执行能力

有了这些还要有身体帮助我们执行任务,即Tools:

  • 网络搜索
  • 打开网页
  • 执行命令
  • 填充表单
  • 打电话
  • 查询数据库

沟通能力

即Agent之间可以进行通信,像人一样Agent之间可以互相交流,形成一个组织,统一对外提供服务/产品,根据提供能力的大小,还可以有不同的组织划分,比如公司内部的一个前端团队、整个技术团队、整个公司。目前Goole已经制定了Agent直接通信的协议-A2A。

说完Agent,聊一聊我们和大模型沟通的重要方式Prompt。

Prompt如何编写

Prompt的边界是无论模型怎么变都不会变的东西,无论模型升级还是切换模型,比如某个上班的周一你IQ90的大脑突然开了窍,增长到IQ120,此时此刻仍然不要忘记需要上班,只不过你拉磨的速度会快一些,但是磨出了的那一坨东西的本质还是不变的(可能会变多)。还有一个判断标准:假如这件事你让别人去做,需要告诉给他的信息,就是需要通过Prompt传递给大模型的。

如果你开了一家奶茶店,你是老板,你如何培训你的员工,你应该告诉他什么?

你是奶茶店的员工,可以卖各种饮品,根据顾客需要提供相应的产品。 柠檬水需要柠檬加水,¥4一杯。

大模型和普通代码的边界?

由于大模型生成结果存在一定的随机性(当然可以通过参数控制输出结果的随机概率)和执行效率低(耗能多,时间长),不是所有的场景都适合使用大模型来处理。所以需要考虑什么时候使用大模型,什么时候使用代码?判断标准就是目前人和代码的边界,哪些事情,目前需要人做的,哪些事情目前需要代码去做的。大模型的价值就是去做原来代码做不了,必须要人来做的事情,比如:

  • 总结会议纪要。
  • 客服。
  • 代码CodeReview。
  • 闲聊

和人的关系

大模型/Agent会进一步拉开人与人之间的差距,能力强的人相当于一个团队或者一个公司,同时也会变得更累,因为要思考的事情变得更多了;能力弱的人可能连最基础的工作岗位都被抢走,比如客服。旱的旱死,涝的涝死。

什么样的事情应该Agent去做,或者说什么样的事情Agent做更有价值?

除了技术考量,还要有社会因素的考量,考虑必须人做,而且人又不愿意做的事情:

  • 打骚人电话(广告推销电话)
  • 接骚扰电话 (手动狗头)

(照例:提供大模型处理之后的版本)

什么是 Agent?

目前业界对“Agent”(智能体)并没有一个简单易懂且达成共识的定义。我的核心观点是:Agent 本质上就是一个“数字人”。

  • Agent 的初级阶段:  它能代替你完成特定任务,达成具体目标。例如:帮你点外卖并支付、打车、购物、总结一周工作撰写周报并邮件发送、甚至登录考试系统替你完成考试等。
  • Agent 的终极阶段:  它能成为你的“全能替身”——既能帮你点外卖、替你考试,甚至(理论上)能替你处理更复杂的人际互动(比如“谈恋爱”)。总之,目标是能全面替代你在特定领域的活动。

Agent 由哪些部分组成?(“数字人”的构成)

既然 Agent 是“人”,它的组成也对应人的能力:

  1. 思考能力(“大脑”):

    • 核心:  由大语言模型(LLM)提供,如 DeepSeek-R1、GPT-4、通义千问等。模型能力的高低可类比为“智商”差异。

    • 记忆(“学历、经验”):

      • 长期记忆 (Memory):  存储持久的背景知识。例如,一个负责开发的 Agent,除了基础编程能力(模型训练获得),还需要公司内部的技术栈(如 Antd)和业务知识(如社交应用开发)。这就像人的长期经验积累。
      • 上下文 (Context):  处理当前任务所需的即时信息。例如,接到“开发微信炸屎表情包”的需求,所有与该任务直接相关的信息就构成了这次对话或任务的上下文。Context 更偏向短期工作记忆。
  2. 执行能力(“身体”):

    • 由 工具 (Tools)  实现,使 Agent 能“动手动脚”去交互和操作:

      • 网络搜索、打开网页、执行命令、填充表单
      • 打电话、查询数据库等。
  3. 沟通能力(“嘴”):

    • 指 Agent 之间或与用户交互的能力。目前 Google 已提出 Agent 间通信协议 A2A,目标是让 Agent 能像人一样协作,甚至组成“组织”(如技术团队、虚拟公司)共同提供服务。

聊完 Agent,再看我们与模型沟通的关键:Prompt(提示词)

如何编写有效的 Prompt?关键在于抓住其“不变”的核心:

  • Prompt 的边界是无论模型如何升级都不会改变的部分。就像你(智商90)突然开窍(智商120),周一依然要上班——虽然“拉磨”速度更快了,但“磨出来的东西”(任务本质)并未改变(顶多量更多)。

  • 一个实用判断标准:  想象你作为老板要培训奶茶店员工,你会告诉他什么?

    • 例如:“你是奶茶店员工,负责销售饮品。柠檬水的配方是柠檬加水,售价4元一杯。” 这些必须传达给员工的信息,就是你需要通过 Prompt 传递给大模型的指令

大模型 vs. 传统代码的边界?

大模型生成结果存在随机性(可通过参数调节)和执行效率相对较低(耗能高、时延长)的特点。因此,并非所有场景都适合用大模型。关键在于区分:

  • 传统代码擅长:  规则明确、需要高确定性、高效率的任务。

  • 大模型/AI Agent 的价值所在:  解决传统代码做不了、必须由人来完成的事情。例如:

    • 总结会议纪要
    • 智能客服
    • 代码 Code Review
    • 自然对话(闲聊)

Agent 与人的关系(社会视角)

大模型和 Agent 可能进一步加剧人与人之间的差距

  • 能力强者:  可能像拥有一个团队甚至一家公司,效率倍增,但需要思考的层面也更深更广(可能“更累”)。
  • 能力弱者:  原本依赖的基础岗位(如初级客服)可能被取代(“旱的旱死,涝的涝死”)。

什么样的事情更适合或更应该让 Agent 去做?

除了技术可行性,还需考虑社会需求——那些必须由人做,但人普遍不愿意做的事情:

  • 主动拨打推销电话(打骚扰电话)
  • 被动接听推销电话(接骚扰电话)(手动狗头)