Research Agent 报告引用越多，越要查它有没有“伪证据链”Deep Research 把长任务检索、分步阅读

Deep Research 把长任务检索、分步阅读、带引用报告推到台前。用户给一个模糊问题，系统会拆查询、翻资料、压缩上下文，再产出一篇结构完整的报告。

这件事很有用。普通搜索解决的是“找页面”，Research Agent 解决的是“把一批材料组织成叙事”。问题也藏在这里：报告越顺，读者越容易把排版、引用和逻辑连贯误判成证据充分。

科研和技术调研里，最麻烦的报告往往引用很多。链接能打开，DOI 看着正规，段落后面挂着参考文献。细查会发现：综述套综述，新闻稿混进实证研究，预印本被写成已验证结果，开放域 QA 实验被外推到企业知识库，低质 AI 论文也被检索系统纳入上下文。

图1：头图——左侧是格式漂亮但来源混杂的报告，右侧是每个判断都能追到 DOI、PMID 或 OpenAlex ID 的证据链

图1：头图——左侧是格式漂亮但来源混杂的报告，右侧是每个判断都能追到 DOI、PMID 或 OpenAlex ID 的证据链

OpenAI Deep Research 让大众看到“多步检索 + 引用报告”的体验；Google AI co-scientist 把焦点推向科研假设生成；FutureHouse 更接近生物医学文献阅读与推断；PaperQA 关注论文片段级问答；AutoResearchBench 这类评测提醒开发者，报告质量需要拆成可验证任务。它们共同暴露了一个问题：模型会读材料，也会把材料组织得很像研究，但来源质量、任务边界和结论强度仍要单独审计。

漂亮引用最容易掩盖错配

科研证据有层级。随机对照试验、队列研究、系统评价、机制实验、预印本、观点文章、新闻解读，不能放在同一格里。数据库也有边界：PubMed 更适合医学与生命科学；OpenAlex 覆盖广，但元数据、重复项和学科分类需要复核；工程系统、企业 RAG、开发者工具还要看 ACM、ACL、arXiv、企业技术报告和基准数据集。

看一个模拟审计案例。

Research Agent 生成判断：

“2021 年以来，RAG 已在企业知识库问答中显著降低幻觉率。”

候选来源包括三类：一篇开放域 QA 论文，实验在 Natural Questions / TriviaQA 上做，指标是 EM/F1；一篇 RAG 综述，讨论检索增强对答案质量的影响；一篇企业博客，讲内部知识库上线经验，没有公开数据和评测协议。

逐条查后，问题很清楚：开放域 QA 不是企业知识库；EM/F1 不是幻觉率；综述没有新增实验；博客缺少可复现实验设计。引用都存在，支撑关系偏弱，强判断必须降级。

报告原句	来源类型	错配点	审计后表述
RAG 已在企业知识库问答中显著降低幻觉率	开放域 QA 实验	场景、指标都不匹配	部分开放域 QA 实验显示检索增强可提升答案匹配指标，不能直接外推到企业知识库幻觉率
研究表明该方法已验证有效	预印本	未经同行评审，缺少独立复现	预印本报告了正向结果，证据强度需单独标记
多篇综述支持该结论	综述	综述引用综述，未回到原始实验	综述显示该方向被持续讨论，结论需回查原始研究

伪证据链常见信号很固定：段末统一挂引用，句子和来源无法对应；只有网页链接，没有 DOI、PMID、OpenAlex ID；“实验研究”“综述”“预印本”“新闻”统一写成“研究表明”；结论缺少样本、任务、时间范围和排除条件。

图2：流程图——报告生成后，抽取关键判断，回查来源 ID、证据类型、原文位置和支持强度

图2：流程图——报告生成后，抽取关键判断，回查来源 ID、证据类型、原文位置和支持强度

把审计做成句子级工作流

Research Agent 输出适合当初稿和线索池。科研场景要把审计压到句子级：每个强判断对应哪篇文献、哪张表、哪个实验设置、哪个结论段；对应不上，就降级或删除。

一个最小 claim-source alignment 结构可以这样写：

{
  "claim": "2021年以来，RAG显著降低企业知识库问答幻觉率",
  "scope": {
    "time": "2021-2025",
    "domain": "enterprise_knowledge_base_qa",
    "metrics": ["hallucination", "attribution"]
  },
  "source": {
    "title": "example paper",
    "ids": {
      "doi": "",
      "pmid": "",
      "openalex": ""
    },
    "type": "empirical_study",
    "evidence_location": "results/table_2",
    "matched_scope": {
      "domain": false,
      "task": true,
      "metric": false
    },
    "support_level": "weak",
    "reason": "开放域QA实验，未评估企业知识库幻觉率"
  },
  "action": "downgrade_claim_or_search_more"
}

开发者可以把它做成质检 pipeline：先抽取报告里的强判断，再按句子检索来源片段，接着判定文献类型、任务范围、指标匹配度，最后输出支持等级。UI 上左侧放 claim，右侧放来源 ID、原文片段、证据类型、错配点和降级建议。审稿人不用先读完整报告，就能定位高风险句子。

图3：claim-source alignment 矩阵——行是报告判断，列是来源 ID、文献类型、任务范围、指标、原文位置、支持强度

图3：claim-source alignment 矩阵——行是报告判断，列是来源 ID、文献类型、任务范围、指标、原文位置、支持强度

假设用户要问：“RAG 在企业知识库里靠谱吗？”

不要直接丢给 Deep Research。先改成可检索问题：

“2021—2025 年，RAG 用于企业或组织内部知识库问答时，在答案准确性、幻觉率、可追溯性和安全风险上的实证研究、基准评测与系统综述。”

同时写排除条件：不收纯产品新闻；不收没有实验或案例设计的观点文章；预印本单独标记；企业知识库、文档问答、开放域 QA 分层比较。检索词围绕 enterprise knowledge base QA、document question answering、citation grounding、source attribution、prompt injection、retrieval augmented generation evaluation 展开。

在来源整理阶段，可以用超能文献做前置检索：用中文限定研究范围，检索 PubMed、OpenAlex 等数据库，并保留 DOI、PMID、OpenAlex ID，方便后续沿引用回查原文；它只负责提高检索和追溯效率，不判断结论对错。suppr.wilddata.cn?referralCode=jpiUdA&utm_source=juejin

最后交给 Research Agent 的材料，不应是一串链接，而是一张审计表：年份、数据库、文献类型、任务、数据、指标、原文位置、支持强度。下一次生成报告前，先要求系统补齐这张表。