从deepsearch,deepresearch 看知识库问答，综述，报告实现

2026-01-17 91 阅读4分钟

技术栈

agent 框架：langchina ，自 1.0 发现后，框架设计清晰，api很友好，是目前开发agent首选框架
检索库：es 作为检索库，可以实现关键词检索和向量检索的混合检索。
向量模型：qwen3:embedding:4b，目前开源中最强
大模型：kimi2-thinking, 对比其它模型，生成的表格总结很理想。

问答

此流程旨在像“智能搜索”一样，从知识库中快速提取最相关的信息，直接、精确地回答用户的具体问题。

核心目标：实现快速、准确的问答。
处理流程：
1. 混合检索：将用户问题，在es知识库中进行向量搜索 + 关键词搜索，（权重设置：向量权重与关键词权重 3：1 到 5：1 ），召回最相关的文档片段。
2. 上下文构建：将检索到的文档片段压缩与原始问题一同构建为提示词上下文。
3. 精炼回答：大模型基于给定的上下文，生成一个简洁、准确的答案。
技术要点与适用场景：关键在于检索的准确性与相关性。适用于客服机器人、产品手册查询、内部知识FAQ等需要快速获取明确信息的场景。

流程图：

问答.png

综述

当用户需要了解一个较宽泛的主题而非单一答案时，此流程能够对分散的知识进行汇总和梳理，形成结构化的概述。

核心目标：生成全面、有条理的概述。
处理流程：
1. 主题解析：用户提出一个主题或领域（如“机器学习中的强化学习”）。
2. 多维度检索：系统会从不同角度（如定义、原理、分类、应用等）分折子问题，子问题再检索相关的多份文档。
3. 信息合成：大型语言模型对检索到的广泛信息进行去重、归纳和逻辑组织。
4. 综述生成：输出一份包含多个小节、要点清晰的综述性文本，帮助用户快速建立对该主题的系统性认知。
技术要点与适用场景：挑战在于信息的整合与结构化能力。非常适合用于市场调研分析、竞品分析概要、学术文献综述初稿等。

流程图：

项目： github.com/langchain-a…

报告

这是最复杂的流程，不仅整合信息，更要求系统进行分析、推理甚至提出新观点，生成具有深度的格式化文档。

核心目标：创作有深度、有见解的格式化文档。
处理流程：
1. 需求明确与指令解析：系统首先与用户交互，明确其深层需求、目标读者和预期格式，细化复杂的创作指令（如“为公司管理层撰写一份关于2024年AI趋势的分析报告，需包含技术展望、风险评估和战略建议”）。
2. 提纲规划：大模型根据指令，规划报告的整体大纲和结构。
3. 分步研究与撰写：针对大纲中的每个章节，系统循环执行“检索-分析-撰写” 。例如，为“风险评估”章节检索相关案例和数据，然后进行分析和段落生成。
4. 统稿与润色：最后将所有章节内容整合，确保风格一致、逻辑连贯，并生成最终的报告。
技术要点与适用场景：它实现了规划、多轮检索和迭代创作。适用于自动生成行业分析报告、项目方案、研究论文草稿等高质量、长文本的创作任务。

流程图：

报告流程图.png

项目： github.com/langchain-a…

总结

这三种流程体现了智能知识库应用从“检索增强”到“认知增强”的演进：

问答流程是点对点的信息提取，核心是精准。
综述流程是面对面的信息整合，核心是全面。
报告流程是深度分析驱动的信息创造，核心是洞察与结构。

选择哪种流程，取决于您的核心需求是获取一个简单答案、快速了解一个领域，还是需要一份具备分析深度的完整文档。通过LangChain灵活组合相关模块，您可以构建出满足不同复杂度的强大知识库应用。

从流程上看，问答，综述，报告，三者是层层递进的，综述是在问答基础上折分子问题，报告是在综述基础上加意图明确，大纲生成。流程上是越来越复杂的，复杂也意味着工作量，大模型的回复有随机性，用多步聚的流程来规范这种随机性，产生确定性的回复。
速度：在网页端查询时，要求响应的实时性（在5s内）要有返回结果，问答能满足这要求。综述，报告完成通常要3-10分钟，更适合用于后台任务。