✨AI Agent✨一文整明白

1,053 阅读6分钟

你的名字-001

大家好,我是半夏之沫 😁😁 一名金融科技领域的JAVA系统研发😊😊
我希望将自己工作和学习中的经验以最朴实最严谨的方式分享给大家,共同进步👉💓👈
👉👉👉👉👉👉👉👉💓写作不易,期待大家的关注和点赞💓👈👈👈👈👈👈👈👈
👉👉👉👉👉👉👉👉💓关注微信公众号【技术探界】 💓👈👈👈👈👈👈👈👈


前言

AI Agent也叫做 智能体,是人工智能技术的重要体现形式,也是未来AI的重点发力方向,各行各业各场景都需要AI Agent进行 重构。本文将对啥是AI Agent,以及AI Agent的基本组成进行说明。

正文

前有ChatGPT横空出世引发AI热潮,后有DeepSeek开源引得美国半个科技圈震动,无论如何,大模型这个词已经出圈了,现在下至七八岁孩童,上至耄耋古稀,都会使用豆包等Chat模型应用进行聊天,连没有任何编程基础的人都能使用大模型,大模型火出圈就是大势所趋。

先来瞅瞅一个训练好的大模型长啥样,哎嘿就长下面这样。

大模型-训练好的大模型示意图

当一个大模型部署好启动起来之后,正常使用大模型的示意图是下面这样的。

大模型-普通用户使用大模型示意图

就是把我们的问题给到大模型应用,然后大模型应用返回推理出来的结果给到我们。但这里有一个问题不知道你发现没有,就是大部分用户其实都是普通人,比如用户希望大模型写一篇作文,那么用户只会向大模型说一句帮我写一篇一千字的作文,此时大模型通过推理写出来的作文肯定是差点意思的,但假如用户有点文学创作基础,就像下面这样。

大模型-高级用户使用大模型示意图

因为用户在向大模型提问时,增加了更多的细节,此时大模型就会写出一篇以思乡为主题并且行文风格模仿席慕容老师的作文了。可问题又出现了,用户只是普通人,问问题时没办法问得那么专业,咋办呢,哎嘿,我们可以在用户和大模型中间加一个Agent代理),用户你随便问,细节由代理来处理,就像下面这样。

大模型-AI Agent简单示意图

而且要知道,大模型的种类有很多,不同厂商不同分类,厂商就不说了,国内国外的可太多了,而大模型分类大致可以分为 语言大模型Large Language Model),视觉大模型Visual Large Model)和 多模态大模型Multimodal Large Language Models),那么用户的一次提问,也许并不是单一的一个大模型能处理的,就比如用户上传一个音频文件,要求基于音频文件画一张图出来,这种情况下需要多种大模型来处理,而协同不同大模型的工作,就由Agent来负责,就像下面这样。

大模型-AI Agent协同多个大模型示意图

当然啊实际的编排也许和上面有点出入,反正就是依赖于Agent去实现大模型接口的调用,而上面其实就是在阐述,AI Agent是什么(用户和大模型之间的一层代理),以及为什么会出现(帮助用户更好的使用大模型解决特定场景下的问题),但是并不是真正的AI Agent的定义,真正的AI Agent的定义是有标准答案的,如下所示。

Agent = Perception + Brain + Action

我还去网上偷了一张图,可以帮助解释AI Agent是什么。

AI Agent标准定义

首先是Perception,即AI Agent是能够感知用户的问题的,无论用户是输入了一段话,或者是用户上传了一段音频等,AI Agent能够将这些用户输入转换为能够理解的内容比如对输入做向量化。

其次是Brain,这是AI Agent的核心,是AI Agent的大脑,这里会使用到大模型来理解用户的输入,正是因为现在的大模型能够理解用户的输入了,所以给人的感觉就是AI Agent好像能够理解人们表达的意思并进行交流,其实就是大模型在底层支撑这一能力。在AI Agent中,Brain层的实现涉及的内容蛮多,下面是一个简化版的整理。

大模型-Brain简化版思维导图

经过Brain结合上下文和既有经验思考后,最终会得到一份执行计划,这个执行计划会决定接下来的Action的行为表现,那么关于Action,也简单整理如下。

大模型-Action简化版思维导图

其实就是AI Agent在得到了用户输入后,结合大模型进行思考,最终对用户做出反馈。

到这里感觉AI Agent好像还蛮复杂,如果是自己去写代码来实现AI Agent,那确实比较麻烦,但是其实一个没有任何编程基础的人,也可以五分钟搞定一个AI Agent,因为各大厂商都有提供零代码的AI Agent平台,比如字节的扣子和百度的千帆等,普通的智能体在这些平台上点点点就能搭建出来。当然,复杂的需求,特别是企业级的需求,还是得靠代码。

总结

AI Agent是什么,标准定义如下。

Agent = Perception + Brain + Action

通常一个具体的场景,就需要相应场景的AI Agent来解决问题,由AI Agent完成对问题的理解决策执行,所以其实AI Agent是后续大模型应用化的主要发力方向,因为场景很多很多,通用场景的AI Agent往往对很多定制化场景不具备问题解决能力,所以来一个场景,程序员就需要针对这种场景去开发AI Agent,也许在大模型发展的后期,像Java程序员这种,开发AI Agent是一个不错的选择。


大家好,我是半夏之沫 😁😁 一名金融科技领域的JAVA系统研发😊😊
我希望将自己工作和学习中的经验以最朴实最严谨的方式分享给大家,共同进步👉💓👈
👉👉👉👉👉👉👉👉💓写作不易,期待大家的关注和点赞💓👈👈👈👈👈👈👈👈
👉👉👉👉👉👉👉👉💓关注微信公众号【技术探界】 💓👈👈👈👈👈👈👈👈

你的名字-002