【论文阅读】 Enquiring Minds: Early Detection of Rumors in Social Media from Enquiry Posts

149 阅读4分钟

Enquiring Minds: Early Detection of Rumors in Social Media from Enquiry Posts

本文已参与「新人创作礼」活动,一起开启掘金创作之路。


文章梗概:本文使用了聚类的方法,作者提出希望通过有争议的言论来判断一个推文是否是谣言,但是大部分帖子没有这样的言论,作者希望使用少量的带有质疑或者怀疑态度的跟帖,来判断这条推文是否属于谣言。

论文链接:www.www2015.it/documents/p…

论文链接:www-personal.umich.edu/~qmei/pub/w…


 摘要部分:

        作者希望通过找到少数人对于一个事件持怀疑态度的主张,包括““Is this true?”, “Really?”, and “What?”. 等等,通过这些构建一个正则模板,收集相关包含这样带有疑问的帖子进行聚类,进而构建一个检测器,这个检测器能够检测出包含这样质疑的帖子,结合聚类与分类器,能够达到良好的效果。

简介部分:

        作者使用了波士顿马拉松事件作为引例,说明了谣言的危害性,但是谣言揭穿网站依赖着人工的方式去判断是否为谣言,而且覆盖的范围有限,因此会导致谣言在网上蔓延,作者又使用了白宫爆炸案的谣言说明在60秒后有很多人对这个事件的真实性表示怀疑态度,如下图所示:

        作者表示他们提出了一个能够尽早发现谣言的新方法,即通过推文跟帖中的质疑信号来判断,对于大多数人来说,当一个时间发生之后,很少会有人立即就相信,而是希望寻求更多信息,其中一部分人会通过推特进行查询 。但是问题是并不是所有的谣言都有这样的特征,但是对于一个推特簇来说,能产生良好的效果。

       文章的创新点基于以下三点,首先开发了一种具有泛化性的谣言检测方法。第二,推出了能够匹配质疑信号的正则表达式框架。第三,用于谣言检测的信号特征能够区别于主题,也就是与主题的相关性很小(这个是值得参考的,如何能够脱离主题的依赖)之后就是讲了算法的高效性,略过。

相关工作:

主要看一下这两个吧,但是时间有些早,略读即可

S. Sun, H. Liu, J. He, and X. Du. Detecting event rumors on sina weibo automatically. In Web Technologies and Applications, pages 120–131. Springer, 2013. 


F. Yang, Y. Liu, X. Yu, and M. Yang. Automatic detection of rumor on sina weibo. In Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics, page 13. ACM, 2012. 


问题的定义

作者对于谣言的定义是

“A rumor is a controversial and fact-checkable statement.” 谣言是一个具有争议的,并且能够判断的一个事实的陈述。

早期谣言发现

1、 使用一组正则表达式,选择那些包含带有怀疑信号的推文

2、 根据推文中的重叠内容对信号推文进行聚类

3、 系统分析信号簇中的内容来确定簇中具有相同文本的单个语句

4、 系统匹配没有信号的推文构成非谣言语料

5、 使用句子聚类的统计特征,按照他们的陈述是谣言的可能性对候选集进行排序

系统图如下所示:

 

方法方面,作者使用Jaccerd系数来衡量两个推特文本之间的相似性,使用 Minhash algorithm 算法减少N-gram向量空间的维度,使得计算Jaccerd相似性的速度更快,对于一个谣言簇,作者提取了最频繁的3个词?还是子串作为一个谣言簇的summarized statement,并且通过这个summarized statement来提取样本中没有质疑信号量推文,接下来作者统计了13个统计特征来训练分类器:

1、 带有质疑的推文的占比

2、 带有质疑信号推文的词频分布的熵与集群中所有推文集合中的熵的比率 ???

3、推文长度包含三个特征,每条推文的字数、集群中的平均字数、前两者比率

4、转推,一个推文的转发百分比与集群中所有推文的转发百分比

5、 网址平均是

6、哈希tag特征

7、每条推文提到的平均用户数量与簇中提到的平均用户数量

使用了SVM和决策树作为分类器

实验设置

一个波士顿马拉松事件 一个随机抽样的事件

由于方法和数据与我们目前的思路不相符,因此文本不细读,但是文章可取之处在于特征的提取,和如何做到early detection ,如果有需要则细读这两块的内容