动机:
PLM 可以捕捉长依赖,但他们在社交媒体应用任务(如谣言检测)中的表现不够好。论文认为这是由于预训练语料库与社交文本不匹配、对独特社交符号处理不当,以及预训练任务不适合对传播结构中隐含的用户互动进行建模等原因造成的。
- 社交媒体平台的文本与书本、Wiki等的文本风格不同(shorter, highly emotive, and possesses explicit directional relations.),具有较强的交互和方向性。(当前PLM的CLM难以建模文本交互)
- PLM缺乏对post之间情感与立场交互的内在理解(未内化),通常需要借助GNN建模传播结构进一步训练
提出方法 SoLM (Twitter-tailored PLM)
一种称为“参与后预测 (PEP)”的持续预训练策略,将传播结构的信息注入到 PLM 中。PEP 构建模型来预测帖子之间的根、分支和父级关系,捕捉立场和情感的互动,这对于谣言检测至关重要。
- 阶段1:Masked Language Modeling (MLM)
- 阶段2:MLM and PEP
归因分析
虽然最先进的生成式大型模型(如 Baichuan2 和 LLaMA2)的参数比传统的 PLM 多几个数量级,但它们并没有带来明显更好的性能。原因如下三方面:
- 不匹配:通用PLM的训练语料与社交媒体文本不匹配。(more informal language, slang, emojis, and abbreviations)
- 无法处理:通用PLM无法处理社交媒体文本的特有符号。(Symbol Processing Shortfalls)
- 不适用:通用PLM所采用的预训练任务不适用于谣言检测任务。
节点关系(node relations)
- Root Prediction (RoP),
- Branch Prediction (BrP)
- Parent Prediction (PaP)
数据集资源
开源语料:TwitterCorpus (269GB text);无标签数据集:两个未标记的声明对话数据集,具有传播结构(UTwitter 和 UWeibo)。
- TwitterCorpus:mega.nz/folder/wZwF…
- UTwitter:github.com/CcQunResear…
- UWeibo:github.com/CcQunResear…
本方法Github
- The source code of PEP are available at github.com/CcQunResear….
- Weibo homepage: weibo.com/hot/weibo/1…
- The code for the web scraping program can be found at github.com/CcQunResear….
- Twitter homepage: twitter.com/home
局限性
- (e.g., SoLM requires eight A800 80GB SXM GPUs for 14 days of training)
- PEP to continue pretraining RoBERTa requires only a single A800 80GB SXM GPU for one day
- 由于需要 MLM和PEP 训练,因此在及时更新上具有较大的局限性。
总结
ClaHi-GAT和RAGCL等通过外挂的方式,而SoLM旨在通过内化的方式建模交互。