这篇文章介绍了一个名为 PROPANEWS 的新框架,旨在通过生成带有“宣传手法”(Propaganda)的训练数据,来提高检测器识别人类编写的虚假信息(Disinformation)的能力。
The code and data are released on GitHub: github.com/khuangaf/Fa…
1. 研究背景与动机
- 现有技术的局限性:目前的虚假新闻检测器大多是在“机器生成的虚假新闻”上训练的。然而,机器生成的文本与人类编写的虚假信息在风格和意图上存在巨大差异,导致检测器在面对人类编写的虚假信息时效果不佳。
- 人类虚假信息的特征:
- 使用宣传技术:约 33% 的人类虚假信息会使用情感触发语言或逻辑谬误(如诉诸权威、情绪化语言)来增加影响力。
- 真假参半:超过 55% 的文章会将错误信息混杂在大量正确的事实中,使其更具迷惑性。
2. PROPANEWS 框架
该框架通过两个主要步骤自动生成高质量、高迷惑性的训练数据:
第一阶段:虚假信息生成 (Disinformation Generation)
目标是生成一段“看似合理但事实错误”的内容。
- 识别关键句:利用抽取式摘要模型找到文章中语义最关键的句子(Salient Sentence)。(抽取式摘要得分最高的句子)
- 掩码填充 (Mask Infilling):使用 BART 模型将关键句替换为一段新的文本。
- 自批判序列训练 (SCST) + NLI:为了确保生成的句子不是原句的另一种说法(即必须是真正的“错误”而非“补充”),引入了自然语言推理(NLI)模型作为奖励函数。如果生成的句子能被原句推导出来(Entailment),则给予负奖励,强制模型生成具有“冲突性”的错误信息。 (we define the reward as the negative entailment probability computed by a ROBERTA-based (Liu et al., 2019) NLI mode)
第二阶段:宣传手法注入 (Propaganda Generation)
在生成错误信息的基础上,自动加入两种常见的宣传技巧(多加一句):
- 诉诸权威 (Appeal to Authority):从 Wikidata 中提取专家名单,利用 BART 生成诸如“某专家证实……”之类的伪造论点。
- 情绪化语言 (Loaded Language):使用带有强烈情感色彩、夸张的形容词或副词来增强文本的影响力。
3. 实验结果
- 数据集发布:研究团队发布了 PROPANEWS 数据集,包含 2,256 个经过人类验证的样本。
- 性能提升:使用该数据集训练的检测器,在两个公开的人类虚假新闻数据集上的 F1 分数提升了 3.62% – 7.69%。这证明了通过模拟人类宣传手段生成的训练数据,能显著增强模型对真实虚假信息的识别能力。
数据集
- POLITIFACT
- SNOPES
- PROPANEWS, a new training dataset with 2,256 examples
在机器学习、数据标注、NLP 里常用的概念:
- gold-standard (金标) :人工精准标注、100% 可信、最高质量的标准答案数据
- silver-standard (银标) :次优标准训练数据
- 不是人工精标,而是通过模型、规则、弱监督生成的标注数据
- 质量低于金标,但远高于无标注数据
- 成本低、数量大,常用于预训练、半监督学习、数据增强
评价指标
- MAUVE (Pillutla et al., 2021) computes the similarity between two text distributions by adding the areas under a divergence curve, and has been shown to produce better approximations than other metrics such as JS divergence (Martins et al., 2020).
总结: 这篇论文通过“生成逻辑错误”+“注入宣传手段”的组合拳,解决了机器生成数据与人类编写数据之间的“分布鸿沟”问题,为构建更强大的虚假信息防御机制提供了新思路。
参考文献
- self-critical sequence training (Rennie et al., 2017)