王思聪庆祝iG夺冠,微博抽奖猫腻何在?

158 阅读11分钟
原文链接: zhuanlan.zhihu.com

iG在英雄联盟决赛上夺冠一声炮响,将这一游戏圈内部的赛事变成了全民事件。微信朋友圈、微博等平台,懂的不懂的,都开始谈论起这件事情来。iG战队的老板王思聪为庆祝iG夺冠,在微博上也发起抽奖活动:

这项抽奖直接引爆了微博,转发和评论的人次双双超过了两千万。

然而事情后来的走向也令人意想不到。11月11日,王思聪如期公布获奖名单之后,却遭来广大网友的质疑:总共113个中奖人中仅有1名男性,其余全为女性。极不平衡的性别分布,让大家觉得微博的抽奖平台的后台算法有猫腻。最后引得微博官方出面澄清:

好,微博官方说男女参与抽奖比例1:1.2,去除垃圾号之后却得到了1:112男女比例的抽奖结果。我们该不该相信呢?微博到底用了什么方法去除水军/垃圾号?这些方法是否合理?怎样正确识别微博的水军呢?

事件复盘:一个电竞抽奖炸出了美妆博主?

王思聪发出抽奖微博后,该微博在时间和空间上的传播走势是如何的?

此微博符合典型热点事件的时间规律:70%的转发热量产生于微博发出后的前两天。不同的是,在微博发出后的第5天,11月11日,也就是王思聪按约定公布中奖结果的那一天,再次产生了转发的高峰。11月11日当天的转发量也占到这7天转发量的15%,远远高于之前三天的转发量。

如此大量的转发,除了王思聪的个人影响力和大奖的刺激以外,事件发展也超越了抽奖本身,引起了极大量的次级转发。在网络空间上,此次事件的传播图以及传播级数分布如下:

王思聪原微博呈现出典型的多中心的特征:在王思聪微博本身引起巨大转发的情况下,在经过一系列领域内大V的转发,形成了多个次级的传播中心。这回次级传播中心的大V的粉丝量基本上在100万-300万之间,是名副其实的腰部KOL(腰部KOL是指影响力不如流量明星那么顶尖,但是在业内有一定影响力的KOL)。有趣的是,除了数码研究所、IT小莫等这种专注数码科技领域的KOL,海淘大牌、种草小星星,浪里小草莓,甚至天猫国际等一些主打女性用户的时尚美妆类博主,竟然也积极参与到对王思聪微博的转发中来。这充分地显示出,这次事件完全突破了电子竞技圈子,深入到时尚、美妆、海淘、微商等圈子,成为全民事件了。

但是,从这几个次级传播中心的转发微博的内容来看,多数却是跟风搞自己的抽奖活动的,比如浪里小草莓的这条微博:

而只有少数的引发大量下游转发的次级传播者在转发内容中评论事件本身。由此看来,本次事件获得如此广泛的传播,既得益于王思聪本身的豪气,也得益于大量的腰部KOL跟风的抽奖活动所引爆的传播

受众分析:宅女的进击

那么是哪些人参与了这次事件的转发呢?男女比例是不是微博官方所称的1:1.2呢?我们将王思聪原微博的直接转发和简介转发的用户都拿出来,对其画像进行了研究,并取了5月至10月参与过iG相关讨论的用户(视为iG的平时关注者)作为对比。

首先是这两个群体在性别和年龄上的差异:

王思聪微博的转发者在男女比例上竟然出现了反转:平时iG的关注者基本上是男6女4,男性占优势;然而,真实参与到本条微博的转发的人,竟然变成了女性占75%,男性只占25%,女性占比竟然是男性占比的三倍。我们数据中男女比1:3的比例比微博官方的1:1.2更为夸张,这可能和我们把二级及以上的转发都纳入进来有关。不过即便以1:3的男女比作为基准概率线,完全随机的情况下得到实际抽奖结果中1:112的男女比的概率仍然是极小的

另外,在年龄上,两个群体虽然都以90后、95后为主,王思聪微博的转发者却有着更加低龄化的特征:95后和00后的占比相对较高。

看完这群人的性别和年龄段,我们可以继续研究一下这群人的兴趣爱好和生活方式。下面的这张图的横轴展示了在转发王思聪微博的用户中,有这个兴趣标签的人占到总的有效人数的比例;纵轴展示了转发王思聪微博的人在这个兴趣标签上相对于平时关注iG的人的提升度,即这个兴趣标签的人在转发王思聪微博的用户中的占比与有这个兴趣标签的人在平时关注iG的人中的占比的比值。提升度大于1,表示这些兴趣标签是王思聪微博用户更突出的特征;提升度小于1,表示这些兴趣标签是iG平时关注者更突出的特征。

我们可以先看一下iG平时的关注者的显著特征(即图中黄色的部分):

可以看到,iG平时的关注者有着很明显的特征:喜欢游戏动漫;爱好体育,尤其是篮球和足球;喜欢IT,汽车等。这群人可以归结为标准直男群体

那么,本次积极参与到王思聪的抽奖活动的这批人呢?经过总结,积极参与到抽奖活动中的人,最起码有三类人。

第一类是:娱乐化宅女。她们喜欢宅在家里,睡觉或者吃东西,吃饱喝足可能上上网看看微博,看看综艺,追追星,八卦一下最新热点。试想一下,能在11月6日晚和11月7日早上积极转发思聪的抽奖微博的,至少也是勤刷微博的了,也很符合这群人的习惯。思聪的微博引起这些人的注意,当然是很自然的。

第二类是:文艺范青年。这群人喜欢音乐、电影、旅行、摄影等,爱自由,可能有不少人还是在校学生。这群里相对于第一群人宅的属性会更少一些,更像是大家生活中遇到的文艺范儿或者小资范儿的同学或者同事。

第三类是,时尚爱美女性。我们刚刚看到,本次事件的次级核心转发者中美妆时尚的博主很多,所以,本次事件能进入美妆时尚圈,引起很多爱美女士的转发,也就不足为奇了。

总结而言,本次事件的积极参与者完全与iG的平时关注者背道而驰女性,尤其是爱宅爱室内娱乐的女性,占了上风,是一次对iG关注者主要人群的彻底反转。这也再一次印证了这次事件的全民参与性。

水军识别:识别垃圾号的正确姿势

到目前为止,我们已经对思聪抽奖事件的传播、触及到的人群做了一个详细的回顾。我们也确认微博的抽奖结果是值得质疑的。然而微博官方对于抽奖结果男女比严重失衡的解释,仍然让人觉得不太能接受。在@来去之间 的解释中,男性更难被抽中的原因是,很多男性只转发不原创,导致很多男性被认为是垃圾号。从这个解释中,我们不确定微博用了什么算法,但只从澄清的言辞来看,可能是使用了诸如转发微博数、原创微博数、原创内容中有无图片等一些规则来做判定。

那么这些规则是不是有效的?能不能识别出真正的水军?

笔者和笔者的同事曾专门研究过微博的水军,在这里可以给读者们分享一下。

所谓不入虎穴,焉得虎子。我们研究水军的第一步,是去买粉。我们联系了售卖水军的服务商,看到了这样的价目表:

微博的水军市场发展较早,水军名目繁多,服务周全。微博的水军最起码有:僵尸粉、机器活跃粉(关注、帮忙刷点赞、评论、转发等)、真人粉(关注、帮忙刷点赞、评论、转发等)三类。其中,僵尸粉就是三无账号,不会发微博,更不会和其他人互动,所以不可能出现在类似王思聪微博下面转发的人中。所以我们重点的目标是识别出第二类由机器去维持的账号。

在笔者为自己的微博账号买了1000个关注粉丝,1000个刷转发和刷评论的水军后,我们终于可以观察一下真实水军的特征。经过观察,我们发现一些特征,例如:

  1. 买来关注自己的粉丝,大多数关注其他人的数量比较大,大多数都在1000以上;买来刷转发和刷评论的水军,转发或评论别人微博的频次比较高
  2. 会有原创微博,但是大多数内容是从别的账号复制而来;
  3. 其他特征,例如注册时间集中等。

仅从第二条特征来看,微博官方的以原创微博的数量少的规则来判定垃圾号的做法就是有失偏颇的,这样做会导致一些正常的不喜欢发原创微博的人被误判为垃圾号(精准率差),同时没有办法把真正的水军挑出来,因为真正的水军也是会发原创微博的(召回率差)。

我们以买的水军为正样本,随机抽样的其他3000个正常用户为负样本,提取了这些人的社交关系特征(关注了多少人,粉丝多少,好友数等),行为特征(发的微博数量,微博被点赞、评论、转发的数量,评论和转发其他人微博的次数等),内容特征(微博内容)等,构建了一个集成的分类模型。我们在测试集上得到了如下的结果(黄线为测试集上的误差率,横坐标为迭代优化的次数,误差率的含义为:模型预测出的标签与实际的标签不符的比例):

也就是说,在经过迭代优化之后,我们模型识别水军的准确率达到了99.8%以上(即误差率降到了0.2%以下)。

将我们的模型应用到本次参与转发的人中,我们识别到了8.4万个水军占到总转发人数的0.5%左右。这些水军的男女占比和去水后的男女占比如下:

可以看到,首先我们的水军算法是和性别无关的,识别出的水军的男女比例和整体的男女比例相差不大。其次,使用我们的算法除水后的人群的性别分布和整体的分布相差不大。微博官方的说法中男女比例1:1.2,脱水后近似于1:112;而在我们的数据中脱水前的男女比例是1:3,脱水后也基本上是1:3。所以使用我们的除水算法之后再抽奖也更加合理和有效。

回顾了这么多,我们不仅对整个事件的传播和触及到的人群画像做了复盘,看到了这条电竞圈的微博突破游戏界本身,引发大量其他领域的KOL转发;而参与抽奖的主体也并非爱好游戏动漫篮球汽车的平时关注iG的直男,竟然被宅在家刷微博睡觉八卦的宅女群体抢了主角。并且,我们提出了针对水军行之有效的办法,准确率在99.8%以上。那么,问题来了,@微博官方 考虑不考虑使用我们的水军识别服务呢?


数据冰山:数海探秘,冰山不止一角(关注专栏:数据冰山

可视化支持:首页 | 文图

特别鸣谢: