CiteAudit：用AI智能体精准识别伪造论文引用针对AI顶会论文中出现的伪造引用问题，研究者推出了开源工具CiteA

关键要点

顶尖AI会议上的论文被发现存在伪造引用，由于参考文献列表过长，人工审查难以发现这一问题。
新的开源工具CiteAudit部署了五个专用AI智能体，可自动提取引文，并与网络搜索和数据库进行匹配验证，准确率达97.2%，处理十条参考文献约需两秒。
像GPT-5.2这样的商业模型能检测出许多伪造引用，但同时也会将近一半的合法引文误判为幻觉。CiteAudit作为网络应用免费提供。

内容详情

在顶尖AI会议的同行评审论文中，出现了幻觉引用：即指向不存在出版物的引文。一款名为CiteAudit的新工具首次系统性地解决了这一问题。这些虚假引用尤其具有迷惑性，因为语言模型可以将标题、作者姓名和会议名称巧妙地组合成看似完全合法的内容。与此同时，参考文献列表逐年膨胀，使得审稿人和合著者进行人工核查变得不切实际。当一篇论文用不存在的来源支持其论点时，整个证据链就崩塌了。审稿人无法追溯推理过程，合著者在不知情的情况下让自己的学术诚信面临风险，研究的可复现性也受到打击。研究人员表示，这种情况危及“研究过程的多个层面”。

现有的引文核查工具功能有限。研究人员发现，它们在处理现实世界参考数据的格式变化时容易出错，而且大多数是专有工具，无法进行公平比较或独立验证。

为了应对这些不足，研究团队发布了CiteAudit，据称这是首个用于检测幻觉引文的综合性开源基准和检测系统。该数据集包含6，475条真实引文和2，967条伪造引文。生成的测试数据集包含了来自GPT、Gemini、Claude、Qwen和Llama等模型产生的伪造引文。真实测试数据集则来源于在Google Scholar、OpenReview、ArXiv和BioRxiv上论文中发现的实际幻觉案例。研究人员系统地分类了幻觉类型，从标题中的关键词细微替换、虚构的作者列表，到伪造的会议名称和不存在的DOI号码。

CiteAudit将引文核查分解为一个多阶段流程，使用五个专用AI智能体。首先，一个提取器智能体读取PDF并提取文献细节，如标题、作者和会议。然后，一个记忆智能体将这些信息与已验证过的引文进行比对，以避免重复工作。如果无匹配项，一个网络搜索智能体会查询Google Search API，并提取五个最相关结果的完整内容。随后，一个裁决智能体将论文的引文数据与检索到的证据进行逐字比对。仅当此步骤未能得出明确答案时，一个学者智能体才会搜索Google Scholar等权威数据库。根据论文，所有推理任务均在本地托管的Qwen3-VL-235B模型上运行。

在受控的实验室条件下，商业模型表现尚可：GPT-5.2能捕获约91%的伪造引文，且没有错误拒绝任何一条真实的引文。CiteAudit则捕获了全部伪造引文，但错误地将167条真实引文标记为幻觉。真正的差距体现在处理已发表论文中的实际幻觉时。GPT-5.2仍能捕获约78%的伪造引文，但同时错误地将大量真实引文标记为伪造。GPTZero也错误标记了大量真实引文。Gemini 3 Pro产生的误报较少，但漏掉了部分伪造引文。 CiteAudit识别了全部伪造引文，且仅错误拒绝了少量真实引文。总体而言，该系统对引文的判断准确率达到97.2%。它能在2.3秒内处理十条引文，并且由于在本地运行，不产生任何令牌成本。研究人员在测试中还发现，专有模型即使被明确告知要进行外部查找，也不会运行可追溯的搜索。它们隐含检索的文档究竟来自何处，仍然是个黑箱。

研究团队正将CiteAudit作为网络应用免费提供。用户用邮箱注册后，每天可免费核查最多500条引文。需要更高限额的用户可以接入自己的Gemini API密钥。

早期的多项研究已经揭示了这一问题的普遍性。幻觉引用已经出现在如NeurIPS和ACL等主要会议的同行评审论文中。一项调查发现，仅在ICLR 2026的投稿中就有超过50处幻觉引用。今年1月的一项独立调查也显示，商业AI系统在其他领域也未能识别自身的输出。主流聊天机器人在绝大多数情况下无法识别出OpenAI的Sora生成的AI视频是人工的。这些模型没有指出自身的局限性，反而给出了充满信心的错误答案，有时甚至为虚假事件编造新闻来源作为证据。

来源：Arxiv | CiteAuditFINISHED