大模型开发架构与开发场景介绍本文围绕大模型应用开发的核心架构与技术选型展开，重点介绍RAG与Agent两大核心架构，并梳

1.1 开发架构与开发场景介绍

1.1.1 RAG开发

1）背景

大模型的知识冻结：随着 LLM 规模扩大，训练成本与周期相应增加，模型无法实时学习到最新的信息或动态变化。导致 LLM 难以应对诸如“请推荐现在的热门影片”等时间敏感的问题。

大模型幻觉：涉及到大模型从未在训练过程中学习过的信息时，大模型无法给出准确的答复，转而开始臆想和编造答案。

2）RAG举例

LLM在考试的时候面对陌生的领域，答复能力有限，然后就准备放飞自我了，而此时RAG给了一些提示和参考，让LLM根据参考回答，最终考试的正确率从60%到了90%！

1.1.2 Agent开发

充分利用 LLM 的推理决策能力，通过增加规划、记忆和工具调用的能力，构造一个能够独立思考、逐步完成给定目标的Agent。

OpenAI的元老翁丽莲(Lilian Weng)于2023年6月在个人博客（lilianweng.github.io/posts/2023-…）首次提出了现代AI Agent架构。

一个数学公式来表示：

Agent = LLM + Memory + Tools + Planning + Action

比如，打车到西藏玩。

大脑中枢：规划行程的你

规划：步骤1：规划打车路线，步骤2：订饭店、酒店，。。。

调用工具：调用MCP或FunctionCalling等API，滴滴打车、携程、美团订酒店饭店

记忆能力：沟通时，要知道上下文。比如订酒店得知道是西藏路上的酒店，不能聊着聊着忘了最初的目的。

能够执行上述操作。说走就走，不能纸上谈兵。

Agent核心要素被细化为以下模块：

1）大模型（LLM）作为“大脑”

提供推理、规划和知识理解能力，是AI Agent的决策中枢。

大脑主要由一个大型语言模型 LLM 组成，承担着信息处理和决策等功能，并可以呈现推理和规划的过程，能很好地应对未知任务。

2）记忆（Memory）

Agent 像人类一样，能留存学到的知识以及交互习惯等，这样的机制能让 Agent 在处理重复工作时调用以前的经验，从而避免用户进行大量重复交互。

短期记忆：存储单次对话周期的上下文信息，属于临时信息存储机制。受限于模型的上下文窗口长度。

长期记忆：可以横跨多个任务或时间周期，可存储并调用核心知识，非即时任务。长期记忆可以通过模型参数微调（固化知识）、知识图谱（结构化语义网络）或向量数据库（相似性检索）方式实现。

以人作类比：

短期记忆：在进行心算时临时记住几个数字

长期记忆：学会骑自行车后，多年后再次骑起来时仍能掌握这项技能

3）工具使用（Tool Use）：调用外部工具（如API、数据库）扩展能力边界。

4）规划决策（Planning）：通过任务分解、反思与自省框架实现复杂任务处理。

例如，利用思维链（Chain of Thought）将目标拆解为子任务，并通过反馈优化策略。

5）行动（Action）：实际执行决策的模块，涵盖软件接口操作（如自动订票）和物理交互（如机器人执行搬运）。

Agent 会形成完整的计划流程。例如先读取以前工作的经验和记忆，之后规划子目标并使用相应工具去处理问题，最后输出给用户并完成反思。

1.1.3 大模型应用开发的4个场景

1.1.3.1 场景1：纯 Prompt

Prompt是操作大模型的唯一接口

当人看：你说一句，ta回一句，你再说一句，ta再回一句…

1.1.3.2 场景2：Agent + Function Calling

Agent：AI 主动提要求

Function Calling：需要对接外部系统时，AI 要求执行某个函数

当人看：你问 ta「我明天去杭州出差，要带伞吗？」，ta 让你先看天气预报，你看了告诉ta，ta 再告诉你要不要带伞

1.1.3.3 场景3：RAG (Retrieval-Augmented Generation)

RAG：需要补充领域知识时使用

Embeddings：把文字转换为更易于相似度计算的编码。这种编码叫向量

向量数据库：把向量存起来，方便查找

向量搜索：根据输入向量，找到最相似的向量

举例：考试答题时，到书上找相关内容，再结合题目组成答案

这个在智能客服上用的最广泛。

1.1.3.4 场景4：Fine-tuning(精调/微调)

举例：努力学习考试内容，长期记住，活学活用。

特点：成本最高；在前面的方式解决不了问题的情况下，再使用。

1.1.3.5 如何选择

面对一个需求，如何开始，如何选择技术方案？下面是个常用思路：

注意：其中最容易被忽略的，是准备测试数据。

后面我将介绍大模型应用的开发两类：基于RAG的架构，基于Agent的架构。