Research Agent 写 novelty report,最刺眼的词往往是“首次提出”。
一个常见现场是:用户丢给 Agent 一个想法——“用 LLM agent 自动生成实验假设并调度工具验证”。系统查了近三年 arXiv,返回几篇 2023 年后的 Agentic Science 论文,然后给出“已有相关探索,但该方案具有较高新颖性”。看起来谨慎,问题却埋在检索层:它只看见了新词,没看见旧谱系。
Google AI co-scientist 把“AI 参与科研假设生成”推到台前,代表科研工作流正在从问答走向多步骤协作。FutureHouse、PaperQA、Robin 这类项目让文献问答进入证据合成阶段,检索质量开始决定回答上限。Deep Research 的流行,则把长任务研究报告从少数人工作流变成大众入口,也放大了 AI slop 的风险:报告越来越完整,漏检越来越隐蔽。

图1:头图 - Agent 举着“首次提出”牌子,脚下压着一摞 2010 年前后的论文
“相关文献”不等于 prior art
文献综述的任务是找到相关研究,novelty detection 还要反向证明:这个想法没有被充分做过,或者差异足够明确。两者难度不在一个层级。
Agent 容易漏旧论文,原因并不神秘。术语会换皮,早期叫 autonomous agents、planning、workflow automation,后来叫 LLM agent。数据库也有偏好,arXiv 对新工作敏感,OpenAlex 更适合拉长时间轴,PubMed 在生物医学里有结构化优势。时间过滤最致命,很多系统默认近三年,刚好把“被新模型重新包装的老方法”切掉。还有领域迁移,AI 里的 tool use 可能在软件工程、机器人规划、人机交互里早有相似设计。
所以 novelty detection 不能只做“相似论文搜索”。它要先构造候选文献池,再谈判断。池子里至少有四类东西:近三年热词论文、近十年方法论文、经典高被引工作、相邻学科旧方法。没有这个底座,模型给出的创新性评分只是检索窗口的影子。
示例/模拟审计:一个模糊想法怎样被拉回文献池
假设题目是:“让 LLM agent 自动阅读论文、提出实验假设、调用工具验证,并写出结果报告。”这句话直接搜,通常会召回 AI Scientist、agent laboratory、自动科研助手等新论文。审计时我会把它拆成可检索字段:
- 任务:hypothesis generation、experiment planning、literature-based discovery、scientific workflow automation
- 输入输出:论文集合 → 假设;假设 → 实验计划;实验记录 → 报告
- 方法结构:planner、tool use、retrieval、critic、workflow orchestration
- 时间层:2023-2026 热词;2014-2022 方法;2010 前后高被引与跨学科早期工作
- 排除理由:只做摘要生成、只做问答、没有实验规划、没有可复核来源
这里可以把 超能文献 放在“候选池扩展”节点:用中文描述课题,限定 OpenAlex / PubMed、全学科范围和不同时间段,先召回旧文献与综述,再用深度研究生成带来源的背景材料。它适合作为入口之一,价值在于把旧文献找回来;创新性判断仍要回到原文、引用链和同行审阅。

图2:流程图 - Idea → Term Expansion → Historical Search → Method Matching → Novelty Report
一个最小的 task card 可以长这样:
{
"task_card": {
"idea": "LLM agent for automated scientific hypothesis and experiment planning",
"time_windows": ["2023-2026", "2014-2022", "pre-2014 classics"],
"databases": ["OpenAlex", "PubMed", "arXiv"],
"term_expansion": [
"LLM agent",
"autonomous agent",
"scientific workflow automation",
"hypothesis generation",
"literature-based discovery",
"planning and tool use"
],
"match_fields": [
"task",
"input_output",
"evaluation_protocol",
"algorithm_structure"
],
"output_required": [
"similar_prior_work",
"difference_claim",
"evidence_id",
"human_check_required"
]
}
}
报告别急着盖章
好的 novelty report 不该只给一个 8.2/10 的新颖性分数。它应输出相似旧工作、差异点、证据强度、尚未确认的空白。尤其是“首次”“首次系统性”“新方法”这类表达,必须绑定 prior art 证据:检索了哪些库,覆盖到哪一年,用了哪些历史术语,哪些论文被排除,排除理由是什么。
方法级匹配比标题摘要更可靠。两篇论文标题差很远,任务、输入输出、评测协议和算法结构可能高度接近;反过来,标题都写 agent,实际可能只是聊天界面加工具调用。Agent 如果只读摘要,很容易把“换名”当成“突破”,把“换评测集”当成“新方法”。
AutoResearchBench 这类评测开始关注 AI 科研能力,说明行业已经意识到:会写报告不够,还要审计过程。Agentic Science 的叙事越热,越需要把“证据来源”拉到台面上。否则,系统生成的不是科研判断,只是排版良好的错觉。

图3:时间轴 - 近三年热词、十年内方法、经典早期工作三层检索窗口
回到开头那个现场,Agent 翻车的位置并不在最后一句“较高新颖性”,而在前面没有做 historical search。它让“LLM agent”这个新词牵着走,只召回新论文,没有追到 autonomous agents、planning、workflow automation、literature-based discovery 这些旧入口。后面的差异分析再顺,也是在小池子里游泳。
下一步别急着升级模型。先做 50 条 novelty 审计集:每条保留原始 idea、扩展术语、分层时间窗口、候选文献池、排除理由和人工复核结论。跑完这 50 条,你会更清楚系统到底是理解力不足,还是压根没把老论文搜回来。