Novelty Detection 经常翻车，因为 Agent 没把老论文搜回来Research Agent 写 nov

Research Agent 写 novelty report，最刺眼的词往往是“首次提出”。

一个常见现场是：用户丢给 Agent 一个想法——“用 LLM agent 自动生成实验假设并调度工具验证”。系统查了近三年 arXiv，返回几篇 2023 年后的 Agentic Science 论文，然后给出“已有相关探索，但该方案具有较高新颖性”。看起来谨慎，问题却埋在检索层：它只看见了新词，没看见旧谱系。

Google AI co-scientist 把“AI 参与科研假设生成”推到台前，代表科研工作流正在从问答走向多步骤协作。FutureHouse、PaperQA、Robin 这类项目让文献问答进入证据合成阶段，检索质量开始决定回答上限。Deep Research 的流行，则把长任务研究报告从少数人工作流变成大众入口，也放大了 AI slop 的风险：报告越来越完整，漏检越来越隐蔽。

图1：头图 - Agent 举着“首次提出”牌子，脚下压着一摞 2010 年前后的论文

图1：头图 - Agent 举着“首次提出”牌子，脚下压着一摞 2010 年前后的论文

“相关文献”不等于 prior art

文献综述的任务是找到相关研究，novelty detection 还要反向证明：这个想法没有被充分做过，或者差异足够明确。两者难度不在一个层级。

Agent 容易漏旧论文，原因并不神秘。术语会换皮，早期叫 autonomous agents、planning、workflow automation，后来叫 LLM agent。数据库也有偏好，arXiv 对新工作敏感，OpenAlex 更适合拉长时间轴，PubMed 在生物医学里有结构化优势。时间过滤最致命，很多系统默认近三年，刚好把“被新模型重新包装的老方法”切掉。还有领域迁移，AI 里的 tool use 可能在软件工程、机器人规划、人机交互里早有相似设计。

所以 novelty detection 不能只做“相似论文搜索”。它要先构造候选文献池，再谈判断。池子里至少有四类东西：近三年热词论文、近十年方法论文、经典高被引工作、相邻学科旧方法。没有这个底座，模型给出的创新性评分只是检索窗口的影子。

示例/模拟审计：一个模糊想法怎样被拉回文献池

假设题目是：“让 LLM agent 自动阅读论文、提出实验假设、调用工具验证，并写出结果报告。”这句话直接搜，通常会召回 AI Scientist、agent laboratory、自动科研助手等新论文。审计时我会把它拆成可检索字段：

任务：hypothesis generation、experiment planning、literature-based discovery、scientific workflow automation
输入输出：论文集合 → 假设；假设 → 实验计划；实验记录 → 报告
方法结构：planner、tool use、retrieval、critic、workflow orchestration
时间层：2023-2026 热词；2014-2022 方法；2010 前后高被引与跨学科早期工作
排除理由：只做摘要生成、只做问答、没有实验规划、没有可复核来源

这里可以把超能文献放在“候选池扩展”节点：用中文描述课题，限定 OpenAlex / PubMed、全学科范围和不同时间段，先召回旧文献与综述，再用深度研究生成带来源的背景材料。它适合作为入口之一，价值在于把旧文献找回来；创新性判断仍要回到原文、引用链和同行审阅。

图2：流程图 - Idea → Term Expansion → Historical Search → Method Matching → Novelty Report

图2：流程图 - Idea → Term Expansion → Historical Search → Method Matching → Novelty Report

一个最小的 task card 可以长这样：

{
  "task_card": {
    "idea": "LLM agent for automated scientific hypothesis and experiment planning",
    "time_windows": ["2023-2026", "2014-2022", "pre-2014 classics"],
    "databases": ["OpenAlex", "PubMed", "arXiv"],
    "term_expansion": [
      "LLM agent",
      "autonomous agent",
      "scientific workflow automation",
      "hypothesis generation",
      "literature-based discovery",
      "planning and tool use"
    ],
    "match_fields": [
      "task",
      "input_output",
      "evaluation_protocol",
      "algorithm_structure"
    ],
    "output_required": [
      "similar_prior_work",
      "difference_claim",
      "evidence_id",
      "human_check_required"
    ]
  }
}

报告别急着盖章

好的 novelty report 不该只给一个 8.2/10 的新颖性分数。它应输出相似旧工作、差异点、证据强度、尚未确认的空白。尤其是“首次”“首次系统性”“新方法”这类表达，必须绑定 prior art 证据：检索了哪些库，覆盖到哪一年，用了哪些历史术语，哪些论文被排除，排除理由是什么。

方法级匹配比标题摘要更可靠。两篇论文标题差很远，任务、输入输出、评测协议和算法结构可能高度接近；反过来，标题都写 agent，实际可能只是聊天界面加工具调用。Agent 如果只读摘要，很容易把“换名”当成“突破”，把“换评测集”当成“新方法”。

AutoResearchBench 这类评测开始关注 AI 科研能力，说明行业已经意识到：会写报告不够，还要审计过程。Agentic Science 的叙事越热，越需要把“证据来源”拉到台面上。否则，系统生成的不是科研判断，只是排版良好的错觉。

图3：时间轴 - 近三年热词、十年内方法、经典早期工作三层检索窗口

图3：时间轴 - 近三年热词、十年内方法、经典早期工作三层检索窗口

回到开头那个现场，Agent 翻车的位置并不在最后一句“较高新颖性”，而在前面没有做 historical search。它让“LLM agent”这个新词牵着走，只召回新论文，没有追到 autonomous agents、planning、workflow automation、literature-based discovery 这些旧入口。后面的差异分析再顺，也是在小池子里游泳。

下一步别急着升级模型。先做 50 条 novelty 审计集：每条保留原始 idea、扩展术语、分层时间窗口、候选文献池、排除理由和人工复核结论。跑完这 50 条，你会更清楚系统到底是理解力不足，还是压根没把老论文搜回来。