1.1 开发架构与开发场景介绍
1.1.1 RAG开发
1)背景
大模型的知识冻结:随着 LLM 规模扩大,训练成本与周期相应增加,模型无法实时学习到最新的信息或动态变化。导致 LLM 难以应对诸如“请推荐现在的热门影片”等时间敏感的问题。
大模型幻觉:涉及到大模型从未在训练过程中学习过的信息时,大模型无法给出准确的答复,转而开始臆想和编造答案。
2)RAG举例
LLM在考试的时候面对陌生的领域,答复能力有限,然后就准备放飞自我了,而此时RAG给了一些提示和参考,让LLM根据参考回答,最终考试的正确率从60%到了90%!
充分利用 LLM 的推理决策能力,通过增加规划、记忆和工具调用的能力,构造一个能够独立思考、逐步完成给定目标的Agent。
OpenAI的元老翁丽莲(Lilian Weng)于2023年6月在个人博客(lilianweng.github.io/posts/2023-…)首次提出了现代AI Agent架构。
一个数学公式来表示:
Agent = LLM + Memory + Tools + Planning + Action
比如,打车到西藏玩。
大脑中枢:规划行程的你
规划:步骤1:规划打车路线,步骤2:订饭店、酒店,。。。
调用工具:调用MCP或FunctionCalling等API,滴滴打车、携程、美团订酒店饭店
记忆能力:沟通时,要知道上下文。比如订酒店得知道是西藏路上的酒店,不能聊着聊着忘了最初的目的。
能够执行上述操作。说走就走,不能纸上谈兵。
Agent核心要素被细化为以下模块:
1)大模型(LLM)作为“大脑”
提供推理、规划和知识理解能力,是AI Agent的决策中枢。
大脑主要由一个大型语言模型 LLM 组成,承担着信息处理和决策等功能, 并可以呈现推理和规划的过程,能很好地应对未知任务。
2)记忆(Memory)
Agent 像人类一样,能留存学到的知识以及交互习惯等,这样的机制能让 Agent 在处理重复工作时调用以前的经验,从而避免用户进行大量重复交互。
短期记忆:存储单次对话周期的上下文信息,属于临时信息存储机制。受限于模型的上下文窗口长度。
长期记忆:可以横跨多个任务或时间周期,可存储并调用核心知识,非即时任务。长期记忆可以通过模型参数微调(固化知识)、知识图谱(结构化语义网络)或向量数据库(相似性检索)方式实现。
以人作类比:
短期记忆:在进行心算时临时记住几个数字
长期记忆:学会骑自行车后,多年后再次骑起来时仍能掌握这项技能
3)工具使用(Tool Use):调用外部工具(如API、数据库)扩展能力边界。
4)规划决策(Planning):通过任务分解、反思与自省框架实现复杂任务处理。
例如,利用思维链(Chain of Thought)将目标拆解为子任务,并通过反馈优化策略。
5)行动(Action):实际执行决策的模块,涵盖软件接口操作(如自动订票)和物理交互(如机器人执行搬运)。
Agent 会形成完整的计划流程。例如先读取以前工作的经验和记忆,之后规划子目标并使用相应工具去处理问题,最后输出给用户并完成反思。
1.1.3 大模型应用开发的4个场景
1.1.3.1 场景1:纯 Prompt
Prompt是操作大模型的唯一接口
当人看:你说一句,ta回一句,你再说一句,ta再回一句…
1.1.3.2 场景2:Agent + Function Calling
Agent:AI 主动提要求
Function Calling:需要对接外部系统时,AI 要求执行某个函数
当人看:你问 ta「我明天去杭州出差,要带伞吗?」,ta 让你先看天气预报,你看了告诉ta,ta 再告诉你要不要带伞
1.1.3.3 场景3:RAG (Retrieval-Augmented Generation)
RAG:需要补充领域知识时使用
Embeddings:把文字转换为更易于相似度计算的编码。这种编码叫向量
向量数据库:把向量存起来,方便查找
向量搜索:根据输入向量,找到最相似的向量
举例:考试答题时,到书上找相关内容,再结合题目组成答案
这个在智能客服上用的最广泛。
1.1.3.4 场景4:Fine-tuning(精调/微调)
举例:努力学习考试内容,长期记住,活学活用。
特点:成本最高;在前面的方式解决不了问题的情况下,再使用。
1.1.3.5 如何选择
面对一个需求,如何开始,如何选择技术方案?下面是个常用思路:
注意:其中最容易被忽略的,是准备测试数据。
后面我将介绍大模型应用的开发两类:基于RAG的架构,基于Agent的架构。