从deepsearch,deepresearch 看知识库 问答,综述,报告实现

43 阅读4分钟

技术栈

  • agent 框架:langchina ,自 1.0 发现后,框架设计清晰,api很友好,是目前开发agent首选框架
  • 检索库:es 作为检索库,可以实现关键词检索和向量检索的混合检索。
  • 向量模型:qwen3:embedding:4b,目前开源中最强
  • 大模型:kimi2-thinking, 对比其它模型,生成的表格总结很理想。

问答

此流程旨在像“智能搜索”一样,从知识库中快速提取最相关的信息,直接、精确地回答用户的具体问题。

  • 核心目标:实现快速、准确的问答

  • 处理流程

    1. 混合检索:将用户问题,在es知识库中进行向量搜索 + 关键词搜索,(权重设置:向量权重与关键词权重 3:1 到 5:1 ),召回最相关的文档片段。
    2. 上下文构建:将检索到的文档片段 压缩 与原始问题一同构建为提示词上下文。
    3. 精炼回答:大模型基于给定的上下文,生成一个简洁、准确的答案。
  • 技术要点与适用场景:关键在于检索的准确性与相关性。适用于客服机器人、产品手册查询、内部知识FAQ等需要快速获取明确信息的场景。

流程图:

问答.png

综述

当用户需要了解一个较宽泛的主题而非单一答案时,此流程能够对分散的知识进行汇总和梳理,形成结构化的概述。

  • 核心目标:生成全面、有条理的概述

  • 处理流程

    1. 主题解析:用户提出一个主题或领域(如“机器学习中的强化学习”)。
    2. 多维度检索:系统会从不同角度(如定义、原理、分类、应用等)分折子问题,子问题再检索相关的多份文档。
    3. 信息合成:大型语言模型对检索到的广泛信息进行去重、归纳和逻辑组织
    4. 综述生成:输出一份包含多个小节、要点清晰的综述性文本,帮助用户快速建立对该主题的系统性认知。
  • 技术要点与适用场景:挑战在于信息的整合与结构化能力。非常适合用于市场调研分析、竞品分析概要、学术文献综述初稿等。

流程图:

whiteboard_exported_image.png

项目: github.com/langchain-a…

报告

这是最复杂的流程,不仅整合信息,更要求系统进行分析、推理甚至提出新观点,生成具有深度的格式化文档。

  • 核心目标:创作有深度、有见解的格式化文档

  • 处理流程

    1. 需求明确与指令解析:系统首先与用户交互,明确其深层需求、目标读者和预期格式,细化复杂的创作指令(如“为公司管理层撰写一份关于2024年AI趋势的分析报告,需包含技术展望、风险评估和战略建议”)。
    2. 提纲规划:大模型根据指令,规划报告的整体大纲和结构
    3. 分步研究与撰写:针对大纲中的每个章节,系统循环执行“检索-分析-撰写” 。例如,为“风险评估”章节检索相关案例和数据,然后进行分析和段落生成。
    4. 统稿与润色:最后将所有章节内容整合,确保风格一致、逻辑连贯,并生成最终的报告。
  • 技术要点与适用场景:它实现了规划、多轮检索和迭代创作。适用于自动生成行业分析报告、项目方案、研究论文草稿等高质量、长文本的创作任务。

流程图:

报告流程图.png

项目: github.com/langchain-a…

总结

这三种流程体现了智能知识库应用从“检索增强”到“认知增强”的演进:

  • 问答流程点对点的信息提取,核心是精准
  • 综述流程面对面的信息整合,核心是全面
  • 报告流程深度分析驱动的信息创造,核心是洞察与结构

选择哪种流程,取决于您的核心需求是获取一个简单答案、快速了解一个领域,还是需要一份具备分析深度的完整文档。通过LangChain灵活组合相关模块,您可以构建出满足不同复杂度的强大知识库应用。

  • 从流程上看,问答,综述,报告,三者是层层递进的,综述是在问答基础上折分子问题,报告是在综述基础上加意图明确,大纲生成。流程上是越来越复杂的,复杂也意味着工作量,大模型的回复有随机性,用多步聚的流程来规范这种随机性,产生确定性的回复。
  • 速度: 在网页端查询时,要求响应的实时性(在5s内)要有返回结果,问答能满足这要求。综述,报告完成通常要3-10分钟,更适合用于后台任务。