ai agent执行流程

3 阅读6分钟

一、整体总流程

用户发命令 → 大模型理解意图 → 规划步骤 → 输出工具调用指令 → AI Agent 框架执行操作 → 拿到真实结果 → 大模型生成回答 → 返回用户

大模型明白意图后,到底是怎么把 AI Agent 启动起来、一步步完成操作的。

一句话核心:大模型负责 “想” 和 “说指令”,Agent 框架负责 “读指令、执行、调用工具、循环推进”,两者配合,就完成了操作。

二、执行步骤

1.用户输入

用户发出指令,例如:查北京今天天气并发短信通知

2. 大模型理解意图

  • 文本转为 Token → 再转为向量表示

  • Transformer 注意力机制建模上下文关联

  • 最终解析出:

    • 意图:查询天气 + 发送短信
    • 关键参数:北京、今日
    • 所需工具:天气 API、短信 API

3. 大模型决策并输出工具指令

模型内部推理:

这个问题需要外部实时数据,我不能瞎编,必须调用工具。

此时模型不直接生成自然语言回答,而是输出一段结构化指令,例如:

json

{
  "tool": "get_weather",
  "params": { "city": "北京" }
}
  • 不直接回答,输出结构化 JSON 指令
  • 告诉 Agent 要调用什么工具、传什么参数

4. Agent 框架接住指令,开始执行

这部分是外部执行代码(LangChain / 自研 Agent 系统),负责:

  • 解析模型输出的结构化指令
  • 匹配并调用对应工具 / 函数
  • 填充参数并发起真实调用(网络请求、数据库操作、函数执行等)

python

运行

# 伪代码
result = weather_api.get(city="北京")

这一步才是真正对外执行操作

5. 工具返回结果 → 丢回大模型

Agent 将工具执行结果追加到对话上下文:

工具执行结果:北京今日晴,18~26℃

6. 大模型继续判断:任务完成了吗?

  • 如果完成 → 生成自然语言回答
  • 如果没完成 → 继续生成下一轮工具指令

例如还需要发短信,模型会继续输出调用短信工具的指令。

7. 最终大模型整理语言 → 返回给用户

北京今天天气晴朗,温度 18~26℃。

总结:大模型不直接控制 Agent,它只做两件事:1.理解意图2.生成工具调用指令。AI Agent 不是一个模型,是一套系统。Agent = 大模型(大脑)+ 执行框架(手脚),大模型负责决策,Agent 框架负责执行。大模型理解用户意图后,输出结构化工具调用指令,由 AI Agent 框架解析并执行外部操作,获取结果后再交还给大模型生成最终回答。

三、核心概念

1、大模型参数本质

参数 = 被高度压缩后的知识与模式本体

模型权重不是直接存储知识点的 “硬盘”,而是海量浮点数构成的概率映射关系。知识并不存在于单个权重中,而是蕴含在权重矩阵整体形成的激活模式里,通过模式匹配完成理解与推理。

  • 参数 = 权重(训练后静态固化)
  • 概率 = 权重算出来的东西(动态、输出)
  • 权重决定概率分布,概率分布不改变权重

参数存的是权重模式,概率是它的输出表现。

参数可以理解为权重本身,概率,是权重计算出来的结果。

2、大模型核心能力

本质只有两件事:

  • 理解输入(理解问题、解析资料、抽取信息)
  • 生成输出(组织语言、总结、推理、回答、创作)

所有复杂能力(规划、代码、多轮对话)都是这两者的延伸。

3、向量数据库的定位

只做一件事:语义检索

把问题转向量 → 找最相似文本片段 → 返回原始文本。

负责保真、溯源、提供外部事实依据,不负责理解和说话。

4、RAG 整体工作流程

用户问题 → 向量库检索相关资料片段 → 问题 + 资料一起输入大模型 → 大模型理解、推理、组织语言 → 给出答案。

5、分工一句话

大模型:负责理解、思考、说话

向量库:负责查资料、保准确

6、大模型 “吃数据” 到底是什么?

  • 不是背诵原文,而是提炼规律
  • 把海量文本里的语法、常识、逻辑、因果,通过训练压缩进模型参数
  • 训练完原始数据可以删掉,只保留参数
  • 本质:数据是课本,参数是学到的知识与能力

7、AI Agent 是什么

  • Agent ≠ 大模型,是一套系统
  • 大模型 = 大脑(负责理解、决策、下指令)
  • Agent 框架 = 手脚(负责解析指令、调用工具、执行操作)
  • 运行模式:大模型动嘴指挥,Agent 跑腿干活

8、为什么会幻觉?怎么解决?

  • 幻觉根源:模型以 “语句通顺” 为优化目标,不去验证事实;参数内知识固化,无法实时更新

  • 根治方案:RAG 检索增强 + 工具调用

    • RAG:从外部可信文档检索资料,强制模型基于资料回答
    • 工具调用:通过计算器、API、数据库等保证结果准确可靠

9、大模型怎么 “理解” 用户说话?

并非真正 “懂得语义”,而是依靠注意力机制完成上下文关联建模

  • 文本转向量 → 注意力计算词与词、片段与片段的相关性
  • 最终输出:意图、关键信息、逻辑关系
  • 核心:注意力 = 让每个 token 能关联并聚焦上下文相关内容

大模型的 “理解”,本质是极强的上下文关联与概率预测能力

10、大模型怎么 “生成回答”?

  • 全程只做一件事:逐词概率接龙
  • 根据上文,预测下一个概率最高的词
  • 追加 → 再预测 → 再追加,直到结束
  • 本质:通顺优先,事实正确性不自带保证

11、大模型和向量数据库的关系

大模型 “吃” 数据是训练阶段的事;向量数据库是推理阶段用来 “查” 数据的事。

两者是互补关系,不是替代关系。

先看大模型本身的局限

即使 “吃” 了再多数据,大模型也有几个硬伤:

  1. 知识过时:训练截止后就不会更新
  2. 容易瞎编(幻觉) :不知道就乱编
  3. 记不住精确信息:比如合同条款、最新财报、私有文档

向量数据库解决什么?

它不参与训练,不 “喂” 模型,而是:

  • 把私有数据、最新数据切分成文本片段

  • 用 Embedding 模型转为向量

  • 存入向量数据库

  • 用户提问时,先从向量库检索最相关的片段

  • 把片段丢给大模型,让它基于真实资料回答

总结:

  • 大模型 “吃数据” : 训练阶段,把海量文本消化成通用知识和语言能力,存在模型参数里。

  • 向量数据库: 不训练、不消化,只是把文本变成向量存起来,需要时快速检索,给模型当 “参考资料”。

大模型负责 “会思考、会说话”,向量数据库负责 “给它看最新、最准确的资料”。