Research Agent 报告引用越多,越要查它有没有“伪证据链”

7 阅读1分钟

Deep Research 把长任务检索、分步阅读、带引用报告推到台前。用户给一个模糊问题,系统会拆查询、翻资料、压缩上下文,再产出一篇结构完整的报告。

这件事很有用。普通搜索解决的是“找页面”,Research Agent 解决的是“把一批材料组织成叙事”。问题也藏在这里:报告越顺,读者越容易把排版、引用和逻辑连贯误判成证据充分。

科研和技术调研里,最麻烦的报告往往引用很多。链接能打开,DOI 看着正规,段落后面挂着参考文献。细查会发现:综述套综述,新闻稿混进实证研究,预印本被写成已验证结果,开放域 QA 实验被外推到企业知识库,低质 AI 论文也被检索系统纳入上下文。

图1:头图——左侧是格式漂亮但来源混杂的报告,右侧是每个判断都能追到 DOI、PMID 或 OpenAlex ID 的证据链

图1:头图——左侧是格式漂亮但来源混杂的报告,右侧是每个判断都能追到 DOI、PMID 或 OpenAlex ID 的证据链

OpenAI Deep Research 让大众看到“多步检索 + 引用报告”的体验;Google AI co-scientist 把焦点推向科研假设生成;FutureHouse 更接近生物医学文献阅读与推断;PaperQA 关注论文片段级问答;AutoResearchBench 这类评测提醒开发者,报告质量需要拆成可验证任务。它们共同暴露了一个问题:模型会读材料,也会把材料组织得很像研究,但来源质量、任务边界和结论强度仍要单独审计。

漂亮引用最容易掩盖错配

科研证据有层级。随机对照试验、队列研究、系统评价、机制实验、预印本、观点文章、新闻解读,不能放在同一格里。数据库也有边界:PubMed 更适合医学与生命科学;OpenAlex 覆盖广,但元数据、重复项和学科分类需要复核;工程系统、企业 RAG、开发者工具还要看 ACM、ACL、arXiv、企业技术报告和基准数据集。

看一个模拟审计案例。

Research Agent 生成判断:

“2021 年以来,RAG 已在企业知识库问答中显著降低幻觉率。”

候选来源包括三类:一篇开放域 QA 论文,实验在 Natural Questions / TriviaQA 上做,指标是 EM/F1;一篇 RAG 综述,讨论检索增强对答案质量的影响;一篇企业博客,讲内部知识库上线经验,没有公开数据和评测协议。

逐条查后,问题很清楚:开放域 QA 不是企业知识库;EM/F1 不是幻觉率;综述没有新增实验;博客缺少可复现实验设计。引用都存在,支撑关系偏弱,强判断必须降级。

报告原句来源类型错配点审计后表述
RAG 已在企业知识库问答中显著降低幻觉率开放域 QA 实验场景、指标都不匹配部分开放域 QA 实验显示检索增强可提升答案匹配指标,不能直接外推到企业知识库幻觉率
研究表明该方法已验证有效预印本未经同行评审,缺少独立复现预印本报告了正向结果,证据强度需单独标记
多篇综述支持该结论综述综述引用综述,未回到原始实验综述显示该方向被持续讨论,结论需回查原始研究

伪证据链常见信号很固定:段末统一挂引用,句子和来源无法对应;只有网页链接,没有 DOI、PMID、OpenAlex ID;“实验研究”“综述”“预印本”“新闻”统一写成“研究表明”;结论缺少样本、任务、时间范围和排除条件。

图2:流程图——报告生成后,抽取关键判断,回查来源 ID、证据类型、原文位置和支持强度

图2:流程图——报告生成后,抽取关键判断,回查来源 ID、证据类型、原文位置和支持强度

把审计做成句子级工作流

Research Agent 输出适合当初稿和线索池。科研场景要把审计压到句子级:每个强判断对应哪篇文献、哪张表、哪个实验设置、哪个结论段;对应不上,就降级或删除。

一个最小 claim-source alignment 结构可以这样写:

{
  "claim": "2021年以来,RAG显著降低企业知识库问答幻觉率",
  "scope": {
    "time": "2021-2025",
    "domain": "enterprise_knowledge_base_qa",
    "metrics": ["hallucination", "attribution"]
  },
  "source": {
    "title": "example paper",
    "ids": {
      "doi": "",
      "pmid": "",
      "openalex": ""
    },
    "type": "empirical_study",
    "evidence_location": "results/table_2",
    "matched_scope": {
      "domain": false,
      "task": true,
      "metric": false
    },
    "support_level": "weak",
    "reason": "开放域QA实验,未评估企业知识库幻觉率"
  },
  "action": "downgrade_claim_or_search_more"
}

开发者可以把它做成质检 pipeline:先抽取报告里的强判断,再按句子检索来源片段,接着判定文献类型、任务范围、指标匹配度,最后输出支持等级。UI 上左侧放 claim,右侧放来源 ID、原文片段、证据类型、错配点和降级建议。审稿人不用先读完整报告,就能定位高风险句子。

图3:claim-source alignment 矩阵——行是报告判断,列是来源 ID、文献类型、任务范围、指标、原文位置、支持强度

图3:claim-source alignment 矩阵——行是报告判断,列是来源 ID、文献类型、任务范围、指标、原文位置、支持强度

假设用户要问:“RAG 在企业知识库里靠谱吗?”

不要直接丢给 Deep Research。先改成可检索问题:

“2021—2025 年,RAG 用于企业或组织内部知识库问答时,在答案准确性、幻觉率、可追溯性和安全风险上的实证研究、基准评测与系统综述。”

同时写排除条件:不收纯产品新闻;不收没有实验或案例设计的观点文章;预印本单独标记;企业知识库、文档问答、开放域 QA 分层比较。检索词围绕 enterprise knowledge base QA、document question answering、citation grounding、source attribution、prompt injection、retrieval augmented generation evaluation 展开。

在来源整理阶段,可以用超能文献做前置检索:用中文限定研究范围,检索 PubMed、OpenAlex 等数据库,并保留 DOI、PMID、OpenAlex ID,方便后续沿引用回查原文;它只负责提高检索和追溯效率,不判断结论对错。suppr.wilddata.cn?referralCode=jpiUdA&utm_source=juejin

最后交给 Research Agent 的材料,不应是一串链接,而是一张审计表:年份、数据库、文献类型、任务、数据、指标、原文位置、支持强度。下一次生成报告前,先要求系统补齐这张表。