一、 基础与进阶检索架构
-
Standard RAG (标准型):经典的“Query → 向量检索 → 拼接上下文 → LLM”流水线。
-
适用: FAQ、企业Wiki。
-
建议: 必须搭配 Reranker(重排序) 解决向量相似度不等于语义相关性的问题。
-
-
Hybrid RAG (混合型):语义向量 + BM25关键词 + 规则式过滤的多信号召回。
- 适用: 包含专有名词、缩写或特定编码的搜索场景。
-
Modular RAG (模块化):将检索、重排、推理、生成拆分为独立微服务。
- 适用: 大型开发团队,利用 Kafka 记录检索日志实现场景复现和AB测试。
-
Domain-Specific RAG (行业定制型):针对医疗、法律等垂直行业深度调优 Embedding 模型与切分策略。
- 关键: 需持续维护行业词典与知识图谱,确保术语理解的一致性。
二、 认知增强与自我博弈
-
Self-RAG (自反思型):模型生成答案后进行“自我质检”,判断是否需要重新检索。
- 亮点: 类似“AI同行评审”,有效降低生成幻觉。
-
Corrective RAG (CRAG,纠错增强型):【补充】 引入轻量级检索评估器,将检索结果分为“正确、错误、模糊”。若检索质量极差,则触发 Web 搜索补全。
- 适用: 对准确度要求极高的知识库。
-
Speculative RAG (投机型):【补充】 使用小模型快速进行多次检索与草稿生成,大模型仅负责最后的校验与润色。
- 核心: 在保证质量的前提下,大幅降低推理成本和响应延迟。
-
Recursive / Multi-Step RAG (递归/多跳型):在生成过程中多次检索、不断重构上下文。
- 适用: 投研深度报告等链式推理任务。注意其算力消耗通常是标准型的2-4倍。
三、 跨模态与复杂数据结构
-
Graph RAG (图谱增强型):基于知识图谱,擅长回答“关系路径”问题(如依赖链分析)。
- 挑战: 数据建模难度大,需解决实体对齐与本体构建。
-
Multi-Modal RAG (多模态型):跨文本、图像、音频。常用 CLIP 编码图像与文本向量统一召回。
- 适用: 技术图纸问答、短视频摘要、电商多维搜索。
-
Knowledge-Enhanced RAG (知识融合型):融合结构化(数据库/表格)与非结构化文件。
- 关键: 需统一引用格式,并提供来源置信度评分。
四、 场景化与交互策略
-
Agentic RAG (智能体型):引入 Planning 与 Tool Call。Agent 决定何时调 API、何时读表。
- 落地: 必须设置工具权限白名单与审计日志,防止 Agent 误操作。
-
Memory-Augmented RAG (记忆增强型):利用 Redis/Pinecone 存储对话轨迹或用户画像。
- 注意: 务必设置 TTL(生存时间),防止记忆膨胀导致的噪声干扰。
-
Contextual Retrieval RAG (上下文检索型):深度理解对话历史,不仅看当前 Query,还看会话状态。
- 适用: 多轮交互式客服。
五、 实时性与合规安全
-
Streaming RAG (流式实时型):监听 Kafka/Kinesis 等实时流,秒级更新索引。
- 建议: 采用“冷热索引隔离”策略,确保查询效率。
-
Federated RAG (联邦检索型):数据不出本地,仅交换检索摘要或梯度。
-
适用: 医疗、政务等对数据隐私极度敏感的跨机构协作场景。
-
核心总结与实施决策:
-
关于成本与效果的平衡:
-
低成本方案:采用 Standard + Hybrid + Rerank。这是目前性价比最高的配置,能解决 80% 的业务问题。
-
高精度方案:采用 Self-RAG 或 CRAG。虽然推理成本增加约 1.5 倍,但幻觉率(Hallucination)显著下降。
-
-
关于数据结构的挑战:
-
如果你的数据里有很多表格,不要指望 Standard RAG,必须走 Knowledge-Enhanced RAG。
-
如果你的数据里有很多逻辑关联,必须考虑 Graph RAG。
-
-
未来的终极形态: Agentic RAG 是趋势。它不再是死板的流水线,是让 AI 像人一样,根据问题的难易程度,决定是“概括”还是“深入“ 还是”延展“。