一、整体总流程
用户发命令 → 大模型理解意图 → 规划步骤 → 输出工具调用指令 → AI Agent 框架执行操作 → 拿到真实结果 → 大模型生成回答 → 返回用户
大模型明白意图后,到底是怎么把 AI Agent 启动起来、一步步完成操作的。
一句话核心:大模型负责 “想” 和 “说指令”,Agent 框架负责 “读指令、执行、调用工具、循环推进”,两者配合,就完成了操作。
二、执行步骤
1.用户输入
用户发出指令,例如:查北京今天天气并发短信通知
2. 大模型理解意图
-
文本转为 Token → 再转为向量表示
-
Transformer 注意力机制建模上下文关联
-
最终解析出:
- 意图:查询天气 + 发送短信
- 关键参数:北京、今日
- 所需工具:天气 API、短信 API
3. 大模型决策并输出工具指令
模型内部推理:
这个问题需要外部实时数据,我不能瞎编,必须调用工具。
此时模型不直接生成自然语言回答,而是输出一段结构化指令,例如:
json
{
"tool": "get_weather",
"params": { "city": "北京" }
}
- 不直接回答,输出结构化 JSON 指令
- 告诉 Agent 要调用什么工具、传什么参数
4. Agent 框架接住指令,开始执行
这部分是外部执行代码(LangChain / 自研 Agent 系统),负责:
- 解析模型输出的结构化指令
- 匹配并调用对应工具 / 函数
- 填充参数并发起真实调用(网络请求、数据库操作、函数执行等)
python
运行
# 伪代码
result = weather_api.get(city="北京")
这一步才是真正对外执行操作。
5. 工具返回结果 → 丢回大模型
Agent 将工具执行结果追加到对话上下文:
工具执行结果:北京今日晴,18~26℃
6. 大模型继续判断:任务完成了吗?
- 如果完成 → 生成自然语言回答
- 如果没完成 → 继续生成下一轮工具指令
例如还需要发短信,模型会继续输出调用短信工具的指令。
7. 最终大模型整理语言 → 返回给用户
北京今天天气晴朗,温度 18~26℃。
总结:大模型不直接控制 Agent,它只做两件事:1.理解意图2.生成工具调用指令。AI Agent 不是一个模型,是一套系统。Agent = 大模型(大脑)+ 执行框架(手脚),大模型负责决策,Agent 框架负责执行。大模型理解用户意图后,输出结构化工具调用指令,由 AI Agent 框架解析并执行外部操作,获取结果后再交还给大模型生成最终回答。
三、核心概念
1、大模型参数本质
参数 = 被高度压缩后的知识与模式本体
模型权重不是直接存储知识点的 “硬盘”,而是海量浮点数构成的概率映射关系。知识并不存在于单个权重中,而是蕴含在权重矩阵整体形成的激活模式里,通过模式匹配完成理解与推理。
- 参数 = 权重(训练后静态固化)
- 概率 = 权重算出来的东西(动态、输出)
- 权重决定概率分布,概率分布不改变权重
参数存的是权重模式,概率是它的输出表现。
参数可以理解为权重本身,概率,是权重计算出来的结果。
2、大模型核心能力
本质只有两件事:
- 理解输入(理解问题、解析资料、抽取信息)
- 生成输出(组织语言、总结、推理、回答、创作)
所有复杂能力(规划、代码、多轮对话)都是这两者的延伸。
3、向量数据库的定位
只做一件事:语义检索。
把问题转向量 → 找最相似文本片段 → 返回原始文本。
负责保真、溯源、提供外部事实依据,不负责理解和说话。
4、RAG 整体工作流程
用户问题 → 向量库检索相关资料片段 → 问题 + 资料一起输入大模型 → 大模型理解、推理、组织语言 → 给出答案。
5、分工一句话
大模型:负责理解、思考、说话
向量库:负责查资料、保准确
6、大模型 “吃数据” 到底是什么?
- 不是背诵原文,而是提炼规律
- 把海量文本里的语法、常识、逻辑、因果,通过训练压缩进模型参数
- 训练完原始数据可以删掉,只保留参数
- 本质:数据是课本,参数是学到的知识与能力
7、AI Agent 是什么
- Agent ≠ 大模型,是一套系统
- 大模型 = 大脑(负责理解、决策、下指令)
- Agent 框架 = 手脚(负责解析指令、调用工具、执行操作)
- 运行模式:大模型动嘴指挥,Agent 跑腿干活
8、为什么会幻觉?怎么解决?
-
幻觉根源:模型以 “语句通顺” 为优化目标,不去验证事实;参数内知识固化,无法实时更新
-
根治方案:RAG 检索增强 + 工具调用
- RAG:从外部可信文档检索资料,强制模型基于资料回答
- 工具调用:通过计算器、API、数据库等保证结果准确可靠
9、大模型怎么 “理解” 用户说话?
并非真正 “懂得语义”,而是依靠注意力机制完成上下文关联建模:
- 文本转向量 → 注意力计算词与词、片段与片段的相关性
- 最终输出:意图、关键信息、逻辑关系
- 核心:注意力 = 让每个 token 能关联并聚焦上下文相关内容
大模型的 “理解”,本质是极强的上下文关联与概率预测能力。
10、大模型怎么 “生成回答”?
- 全程只做一件事:逐词概率接龙
- 根据上文,预测下一个概率最高的词
- 追加 → 再预测 → 再追加,直到结束
- 本质:通顺优先,事实正确性不自带保证
11、大模型和向量数据库的关系
大模型 “吃” 数据是训练阶段的事;向量数据库是推理阶段用来 “查” 数据的事。
两者是互补关系,不是替代关系。
先看大模型本身的局限
即使 “吃” 了再多数据,大模型也有几个硬伤:
- 知识过时:训练截止后就不会更新
- 容易瞎编(幻觉) :不知道就乱编
- 记不住精确信息:比如合同条款、最新财报、私有文档
向量数据库解决什么?
它不参与训练,不 “喂” 模型,而是:
-
把私有数据、最新数据切分成文本片段
-
用 Embedding 模型转为向量
-
存入向量数据库
-
用户提问时,先从向量库检索最相关的片段
-
把片段丢给大模型,让它基于真实资料回答
总结:
-
大模型 “吃数据” : 训练阶段,把海量文本消化成通用知识和语言能力,存在模型参数里。
-
向量数据库: 不训练、不消化,只是把文本变成向量存起来,需要时快速检索,给模型当 “参考资料”。
大模型负责 “会思考、会说话”,向量数据库负责 “给它看最新、最准确的资料”。