6.1 提示工程与RAG与Agent多技术融合方案设计
本节内容基于《大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)》第6章「多技术融合方案」编写,涵盖提示工程+RAG+Agent组合、模型路由及智能客服、数据分析等复杂业务场景的设计思路。
一、多技术融合的价值(书6.1)
书中指出,在实际业务中,提示工程、RAG、Agent往往组合使用,以解决复杂业务场景:
- 提示工程:定义角色、格式、约束,提升输出质量与可控性
- RAG:引入外部知识库,解决幻觉与知识时效性问题
- Agent:自主规划、调用工具,完成多步任务与实时数据获取
单一技术难以覆盖复杂场景,三者协同可构建智能客服、数据分析等端到端应用。本节将系统讲解融合架构、典型场景与模型路由策略。
二、融合架构(书6.1)
2.1 整体流程
flowchart TB
A[用户输入] --> B[Agent/路由决策]
B --> C{需要检索?}
C -->|是| D[RAG检索]
D --> E[拼接检索结果为上下文]
C -->|否| E
E --> F[提示工程:角色+格式+约束]
F --> G[LLM生成]
G --> H{需要工具?}
H -->|是| I[工具调用]
I --> B
H -->|否| J[最终输出]
2.2 各技术角色
| 技术 | 在融合中的角色 |
|---|---|
| 提示工程 | 定义系统角色、输出格式、禁止事项,贯穿全流程 |
| RAG | 当问题涉及知识库时,检索相关片段并注入上下文 |
| Agent | 判断何时检索、何时调工具,编排多步流程 |
2.3 与书中总结的对应
书中总结指出:
- 基础API调用:messages结构、上下文管理、Function Calling
- 提示工程:结构化模板、CoT
- RAG:文档加载→向量索引→检索→生成
- Agent:工具定义+Prompt+Agent执行器
融合方案即在同一应用中综合运用以上能力。《大模型应用开发极简入门》第6章「多技术融合方案」要求掌握提示工程+RAG+Agent 组合与模型路由(多模型动态调度、成本优化);本节与之一一对应,并给出融合架构图与典型场景拆解。
三、典型场景:智能客服(书6.3)
3.1 场景描述
书中综合案例1为智能客服系统,包含:对话管理、RAG、工具调用、人工转接。
3.2 技术组合
| 组件 | 技术 | 作用 |
|---|---|---|
| 话术与格式 | 提示工程 | 定义客服角色、回复风格、长度、禁止事项 |
| 知识来源 | RAG | 接入产品手册、FAQ、工单知识库 |
| 查询与操作 | Agent/工具 | 查询订单、创建工单、转人工 |
| 对话状态 | Memory | 多轮对话、上下文维护 |
3.3 流程示意
- 用户提问 → Agent判断是否需要检索
- 若需检索 → RAG从知识库获取相关片段
- 将检索结果+历史对话+用户问题送入LLM(提示工程定义格式)
- 若需调工具(如查订单)→ 执行工具 → 将结果返回模型生成回复
- 若需转人工 → 触发转接逻辑
四、典型场景:数据分析(书6.3)
4.1 场景描述
书中综合案例3为企业数据分析师Agent,包含:数据查询、可视化、报告生成。
4.2 技术组合
| 组件 | 技术 | 作用 |
|---|---|---|
| 分析框架 | 提示工程 | 定义分析逻辑、报告格式 |
| 数据获取 | Agent/工具 | SQL执行、API调用 |
| 指标定义 | RAG | 接入业务指标说明、历史报告 |
| 图表与报告 | 工具 | 生成图表、填充报告模板 |
五、模型路由(书6.1)
5.1 为什么需要模型路由
书中提到模型路由:根据任务复杂度、成本、延迟需求,在GPT-3.5/4、开源模型之间动态调度,实现成本优化。
5.2 路由策略示例
| 条件 | 路由到 | 说明 |
|---|---|---|
| 简单问答、分类 | gpt-3.5-turbo | 成本低、延迟低 |
| 复杂推理、代码 | gpt-4 | 能力优先 |
| 大批量、简单任务 | gpt-4o-mini 或开源 | 成本敏感 |
| 多模态 | gpt-4-vision | 必须多模态 |
5.3 实现思路
- 用分类模型或规则对输入做意图识别
- 根据意图选择模型
- 可结合A/B测试与成本监控持续优化
六、设计原则
6.1 按需组合
不是所有应用都需要Agent。简单问答可能仅需提示工程+RAG;复杂多步任务才需Agent。避免过度设计。
6.2 解耦与可替换
各组件(检索、生成、工具)应解耦,便于单独测试、替换模型或数据源。
6.3 成本与效果平衡
RAG检索片段数、Agent步数、模型选型均影响成本。需在效果与成本间权衡。
八、与第 4、5 章知识的串联
第 4 章提示工程(角色、少样本、CoT、格式强制、防御性提示)在融合方案中贯穿始终:无论是纯 RAG 还是 Agent,最终调用 LLM 时都需要清晰的提示。第 5 章 LangChain 的链、记忆、工具、RAG 与 Agent 即本节的实现载体。因此学习顺序建议:先掌握第 4 章提示与第 5 章各组件,再回到本节理解「何时用 RAG、何时上 Agent、如何做模型路由」,形成从单点技术到融合架构的完整视图。书中 6.1 多技术融合与 4.3、5.6 小结中的「组合策略」一脉相承。
九、融合方案的设计决策表(速查)
| 需求 | 建议组合 | 说明 |
|---|---|---|
| 仅需固定知识回答 | 提示工程 + RAG | 检索注入上下文,提示约束「仅基于上下文」 |
| 需实时数据或执行操作 | 提示工程 + Agent/工具 | 用 Function Calling 或 LangChain Tools |
| 复杂多步且需知识+工具 | 提示工程 + RAG + Agent | 先检索再决策是否调工具,见 6.3 智能客服 |
| 简单分类/摘要无外部知识 | 仅提示工程 | 少样本或零样本即可,成本最低 |
| 格式极严、领域术语多 | 提示工程 + 微调(或仅微调) | 见第 4 章微调与 1.6 选型 |
表中「提示工程」贯穿所有组合,因每次 LLM 调用都需要清晰的角色与约束。RAG 与 Agent 的选型可参考本节第二、三、四节的典型场景与流程图,与书中 6.1「多技术融合方案」的表述一致。
七、小结
本节基于书中第6章「多技术融合方案」,系统讲解了提示工程+RAG+Agent的组合架构、智能客服与数据分析的典型设计,以及模型路由策略。融合方案是构建复杂LLM应用的关键。下一节将介绍生产级部署。
十、与 6.2 部署、6.3/6.4 综合案例的衔接
6.2 节生产级部署:融合方案中的每一环(提示服务、RAG 服务、Agent 服务)均需按 6.2 做网关、限流、监控与降级;模型路由的切换逻辑可放在网关或逻辑层,与 6.2 的灰度与多模型一致。6.3 智能客服、6.4 数据分析师 Agent:即本节「智能客服」「数据分析」两个典型场景的端到端实现;本节是架构与选型,6.3、6.4 是具体模块划分与工具设计。学习顺序建议:先在本节理解「何时用 RAG、何时上 Agent、如何做模型路由」,再在 6.2 规划部署,最后按 6.3 或 6.4 实现一个完整案例,形成从设计到上线的闭环。书中 6.1 多技术融合与 6.2~6.4 的对应关系在本节与后续小节中已全部打通。
十一、模型路由的落地方式(书 6.1 模型路由)
书中要求模型路由:多模型(GPT-3.5/4、开源模型)动态调度、成本优化。落地方式包括:(1)按任务类型路由:简单分类、摘要走 gpt-3.5-turbo 或 gpt-4o-mini,复杂推理、代码生成走 gpt-4-turbo;(2)按用户/租户路由:免费用户用低成本模型,付费用户用高阶模型;(3)按负载与降级路由:主模型限流或不可用时自动切换备用模型或返回缓存。可在网关或逻辑层维护「任务类型→模型」映射表,请求时根据上下文选择 model 参数,与 2.2 节选型、2.7 节成本监控结合,形成可观测、可调优的模型路由。
十二、与第 4、5 章知识的串联(复述)
第 4 章提示工程(角色、少样本、CoT、格式强制、防御性提示)在融合方案中贯穿始终;第 5 章 LangChain 的链、记忆、工具、RAG 与 Agent 即本节的实现载体。因此学习顺序建议:先掌握第 4 章提示与第 5 章各组件,再回到本节理解「何时用 RAG、何时上 Agent、如何做模型路由」,形成从单点技术到融合架构的完整视图。
下一节预告:6.2 生产级LLM应用部署:API网关、负载均衡与监控