25 ACL Real-time Fake News from Adversarial Feedback由于模型在预训练

Real-time Fake News from Adversarial Feedback

-> Real-time Factuality Assessment from Adversarial Feedback

github.com/sanxing-che…

由于模型在预训练阶段可能已经“见过”了大量的历史事实核查数据，导致它们在检测旧闻时表现极佳，但这更多是靠模式识别（Pattern Recognition）而非真正的逻辑推理。

论文的核心贡献在于提出了一个对抗性迭代生成框架，通过“以毒攻毒”的方式来制造更难检测的假新闻。我为您整理了几个关键点：

1. 核心发现：检测能力的“虚假提升”

作者发现，即使是像 GPT-4o 这样知识截止日期早于某些新闻事件的模型，在检测 PolitiFact 的政治新闻时，AUC 指标竟然随时间推移而上升。这说明：

不是知识更丰富了，而是近年的假新闻呈现出某种特定的“模式”（例如更具煽动性、更模棱两可），模型学会了识别这些“套路”。
这种现象导致现有的数据集（基于历史事实核查）已经无法有效评估模型处理实时（Real-time）、未知（Unseen） 信息的真实推理能力。

2. 对抗性生成方法 (Adversarial Iterative Generation)

为了打破这种僵局，作者设计了一个闭环流程：

1）改写 (Rewrite)：将真实的实时新闻改写成多个包含错误信息的候选版本。

2）过滤 (Filter)：通过矛盾检测器确保改写后的内容确实违背了原事实，并限制编辑距离，保证风格不走样。

3）对抗迭代 (Adversarial Loop)：

使用一个基于 RAG（检索增强生成） 的强力检测器对候选进行打分。
关键点：不仅用分数，还把检测器的 理由（Rationale/解释） 喂回给生成器。
生成器根据 “为什么被识破” 的反馈，在下一轮进行更有针对性的改写，直到骗过检测器。

3. case 说明

For example, GPT-4 finds news stories reporting on RFK Jr.’s presidential campaign and the White House’s reply to the Sesame Street character’s Twitter account on inflation issues to be implausible.

这句话是一个典型的实验案例（Case Study），用于展示 GPT-4 在进行事实核查时，能够识别出哪些看似正常的新闻报道实际上是“不合理”（implausible）的。

news stories reporting on RFK Jr.’s presidential campaign（关于 RFK Jr. 总统竞选的新闻报道）
the White House’s reply to the Sesame Street character’s Twitter account on inflation issues（白宫对芝麻街角色关于通胀问题的推特账号的回应）

核心含义： GPT-4 认为这两则新闻内容在逻辑或现实背景下是“编造的”或“荒谬的”

逻辑冲突检测：一个人类（或高级 AI）会立刻意识到：“白宫不可能去跟一个芝麻街的小怪兽讨论通货膨胀”。这种“身份不匹配”产生的荒谬感，就是 GPT-4 捕捉到的 Implausibility（不合理性）。

结论与启示

RAG 是双刃剑：RAG 既是检测器的“护盾”（提供最新事实进行比对），也是生成器的“指南针”（让生成器知道如何绕过事实核查）。
评估范式的转移：未来的虚假新闻检测不应再考查模型“知不知道这个事实”，而应考查模型“能否通过检索证据并进行逻辑推理”来识别伪装性极强的误导信息。

其他：

知识过时：现有LLM检测器难以应对实时新闻。LLM检测器可能被超出模型知识范围的实时新闻事件所误导。（knowledge cutoffs）
无RAG不好：无检索的检测器即使在第一轮生成中也会导致接近随机的 AUC 值，十分脆弱。
有RAG有代价：基于检索增强生成（RAG）的检测模型虽具备较高置信度，但往往会给虚假新闻打出偏高的置信分数，这一现象表明大语言模型存在固有缺陷，易受无关信息干扰，或是无法可靠采信外部检索上下文信息（Shi 等人，2023；Huang 等人，2024b）。-> 事实对齐
检测近期的PolitiFact虚假新闻所需的事实知识和推理能力较低，但更依赖模式识别能力和常识判断。
The release of generators is critical to prepare detectors against adversarial attacks (Zellers et al., 2019)