关键要点
- 顶尖AI会议上的论文被发现存在伪造引用,由于参考文献列表过长,人工审查难以发现这一问题。
- 新的开源工具CiteAudit部署了五个专用AI智能体,可自动提取引文,并与网络搜索和数据库进行匹配验证,准确率达97.2%,处理十条参考文献约需两秒。
- 像GPT-5.2这样的商业模型能检测出许多伪造引用,但同时也会将近一半的合法引文误判为幻觉。CiteAudit作为网络应用免费提供。
内容详情
在顶尖AI会议的同行评审论文中,出现了幻觉引用:即指向不存在出版物的引文。一款名为CiteAudit的新工具首次系统性地解决了这一问题。 这些虚假引用尤其具有迷惑性,因为语言模型可以将标题、作者姓名和会议名称巧妙地组合成看似完全合法的内容。与此同时,参考文献列表逐年膨胀,使得审稿人和合著者进行人工核查变得不切实际。 当一篇论文用不存在的来源支持其论点时,整个证据链就崩塌了。审稿人无法追溯推理过程,合著者在不知情的情况下让自己的学术诚信面临风险,研究的可复现性也受到打击。研究人员表示,这种情况危及“研究过程的多个层面”。
现有的引文核查工具功能有限。研究人员发现,它们在处理现实世界参考数据的格式变化时容易出错,而且大多数是专有工具,无法进行公平比较或独立验证。
为了应对这些不足,研究团队发布了CiteAudit,据称这是首个用于检测幻觉引文的综合性开源基准和检测系统。该数据集包含6,475条真实引文和2,967条伪造引文。 生成的测试数据集包含了来自GPT、Gemini、Claude、Qwen和Llama等模型产生的伪造引文。真实测试数据集则来源于在Google Scholar、OpenReview、ArXiv和BioRxiv上论文中发现的实际幻觉案例。 研究人员系统地分类了幻觉类型,从标题中的关键词细微替换、虚构的作者列表,到伪造的会议名称和不存在的DOI号码。
CiteAudit将引文核查分解为一个多阶段流程,使用五个专用AI智能体。首先,一个提取器智能体读取PDF并提取文献细节,如标题、作者和会议。然后,一个记忆智能体将这些信息与已验证过的引文进行比对,以避免重复工作。 如果无匹配项,一个网络搜索智能体会查询Google Search API,并提取五个最相关结果的完整内容。随后,一个裁决智能体将论文的引文数据与检索到的证据进行逐字比对。仅当此步骤未能得出明确答案时,一个学者智能体才会搜索Google Scholar等权威数据库。根据论文,所有推理任务均在本地托管的Qwen3-VL-235B模型上运行。
在受控的实验室条件下,商业模型表现尚可:GPT-5.2能捕获约91%的伪造引文,且没有错误拒绝任何一条真实的引文。CiteAudit则捕获了全部伪造引文,但错误地将167条真实引文标记为幻觉。 真正的差距体现在处理已发表论文中的实际幻觉时。GPT-5.2仍能捕获约78%的伪造引文,但同时错误地将大量真实引文标记为伪造。GPTZero也错误标记了大量真实引文。Gemini 3 Pro产生的误报较少,但漏掉了部分伪造引文。 CiteAudit识别了全部伪造引文,且仅错误拒绝了少量真实引文。总体而言,该系统对引文的判断准确率达到97.2%。它能在2.3秒内处理十条引文,并且由于在本地运行,不产生任何令牌成本。 研究人员在测试中还发现,专有模型即使被明确告知要进行外部查找,也不会运行可追溯的搜索。它们隐含检索的文档究竟来自何处,仍然是个黑箱。
研究团队正将CiteAudit作为网络应用免费提供。用户用邮箱注册后,每天可免费核查最多500条引文。需要更高限额的用户可以接入自己的Gemini API密钥。
早期的多项研究已经揭示了这一问题的普遍性。幻觉引用已经出现在如NeurIPS和ACL等主要会议的同行评审论文中。一项调查发现,仅在ICLR 2026的投稿中就有超过50处幻觉引用。 今年1月的一项独立调查也显示,商业AI系统在其他领域也未能识别自身的输出。主流聊天机器人在绝大多数情况下无法识别出OpenAI的Sora生成的AI视频是人工的。这些模型没有指出自身的局限性,反而给出了充满信心的错误答案,有时甚至为虚假事件编造新闻来源作为证据。
来源:Arxiv | CiteAuditFINISHED