YouTube和今日头条很委屈:色情暴力的锅推荐系统该不该背?

2,665 阅读19分钟
本文由 「AI前线」原创,原文链接:YouTube和今日头条很委屈:色情暴力的锅推荐系统该不该背?
作者|Vincent,Debra Chen
编辑|Emily

AI 前线导读:”YouTube 的“艾莎门”(Elsagate)事件让隐藏在视频网站里的“儿童邪典视频”问题得到曝光,国内外各大视频网站对自家网站的同类视频进行了清理整改。家长们除了愤怒之外,还向这些网站提出了质问:为什么我的孩子会收到这些视频的推荐?

推荐系统,人工智能技术落地最为广泛的技术之一,在这一段时间成为了众矢之的,不仅是视频网站,不少新闻网站或 App 比如今日头条,也被发现向用户推荐低俗化内容的问题。而以技术闻名世界的 Facebook 也被曝出有假新闻推荐的问题。

于是问题来了:推荐系统到底该不该被这个巨大的“黑锅”,或者说,这些问题的出现真的全都是技术的错吗?”


t.cn/RE5zhWm (二维码自动识别)

(推荐一个推荐系统专栏,扫码微信订阅,现在注册立享 30 元新人红包)


事件回顾

YouTube Elsagate 事件


先来回顾一下几个月前沸沸扬扬的这场“艾莎门”事件吧。

2017 年 12 月,YouTube 上的 Elsagate 门引起了舆论的巨大轰动和公众的集体讨伐。事实上,Elsagate 并不是近期才有的事件,早在 2016 年就有机构或公司将凶杀、绑架、怀孕、注射、互相殴打、血腥、暴力等不宜儿童观看内容以 Elsa、蜘蛛侠、米老鼠等卡通形象,录制成动画或真人演出,并上传至 YouTube。引发这次事件的视频内容让人震惊,尤其是有孩子的父母。

从推荐算法机制来看:典型的推荐系统通常由挖掘、召回、排序三部分构成漏斗模型,在理想状态下,经过这三层漏斗的层层过滤,最终经过残酷 PK 留下来的信息应该是比较纯净、优质的信息。然而,推荐系统往往是不完善的,在这三层过滤网的任何一个环节都有可能出现问题,被一些利益团体恶意利用,谋取利益。

用 YouTube 签约算法训练工程师的话来讲,这家全球最大的互联网视频平台内容的评价机制可以用“让人疑惑”和“不完善“两个词来形容。虽然 Google Brain 算法让 YouTube 视频播放量成功提升了 20 倍,但 Elsagate 却正是利用了 YouTube 推荐算法的漏洞才达到了目的。简单来说,YouTube 推荐算法包含两个神经网络,第一个是生成候选集,它以用户的观看历史作为输入,使用协同过滤算法在数以百计的视频中进行选择;第二个神经网络用于对这几百个视频进行排序。该系统使用逻辑回归计算每个视频的得分,然后不断地使用 A/B 测试进行改进。

利用 YouTube 算法的这些特征,这些视频背后的利益既得者 Elsagate通过为大量动漫角色的名字和打上搞笑、儿童等标签,让算法自动判定其为儿童视频,并出现在推荐排序的前几名,儿童只要点进一个,网站就会推荐同类型的视频一个接一个地播放。另外,由于算法在挖掘阶段物料处理能力、召回阶段的马太效应、排序阶段的唯转换率论,导致大量 Elsagate 视频搭乘上算法的快车,轻而易举地登上 YouTube 热门视频,让无监督的儿童成为受害者。


今日头条数次被“请喝茶”

2017 年,头条因内容低俗化和侵犯公众隐私成为舆论批评的众矢之的。

对于引起公众恐慌的“麦克风事件“,今日头条表示,从技术上看,目前声音信息的处理,也远达不到通过麦克风去获取个人隐私的水平,“今日头条用户信息的积累,完全是通过用户在今日头条上的点击等数据行为所产生的。”

虽然头条发出了声明,但用户仍然心有余悸,并对解释存疑。在百度帖吧、知乎、微博等社交平台上,有不少网友反映自己的讲话内容与头条推荐资讯实现匹配的帖子,甚至在淘宝、微信群里说话的内容都会在第二天收到匹配的推荐。

事实上,今日头条已经不是第一次收到政府“请喝茶”的邀请函了。2017 年 12 月 29 日,今日头条因持续传播色情低俗信息、违规提供互联网新闻信息服务等问题,多个频道被关停 24 小时。头条被质疑通过算法等技术手段向用户推荐那些容易获得流量的色情低俗类资讯,从而谋取广告收益。

而今年春晚之前,本来准备大干一场的今日头条旗下两款产品——“火山小视频”、“抖音”,也遭遇了春晚冠名被多家卫视临时撤下的尴尬窘境。

早在去年 6 月,北京市网信办下令关闭头条上的十几个账号,要求其和其他新闻门户网站遏制明星丑闻报道,“积极传播社会主义核心价值观,营造健康向上主流舆论环境”。

2017 年 9 月,《人民日报》发表一系列评论文章,严厉批评今日头条等基于人工智能的新闻应用传播错误信息和肤浅内容。

作为回应今日头条 App 的母公司北京字节跳动科技有限公司注销或暂停了 1100 多个博客账户,声称那些博客在该应用程序上发布了“低俗内容”。它还用一个名为“新时代”的新版块取代了“社会”版块,新版块里有大量官方媒体对政府决策的报道。

无独有偶,国内最大的自媒体平台微博的热搜板块也被下架整改,热门部分增加“新时代”板块。


Facebook 广告模式支持假新闻

另据福克斯新闻报道,曾担任社交网络隐私和公共政策顾问的 Dipayan Ghosh 表示,干涉美国大选和英国退欧事件的那种假情报与 Facebook 作为广告平台的性质密切相关。Ghosh 和他的合着者 Ben Scott 在“新美国基金会”发表的报告中写道:“政治虚假信息成功传播是因为它遵循了基本的商业逻辑,有人会从产品中受益,并且让更广泛的数字广告市场策略变得更加完善。”

2017 年,在美国大选后不久,因为 Facebook 虚假信息事件的影响,Ghosh 离开了 Facebook。 在新的报告中,他和 Scott 认为,只要一个社交网络的核心业务模式受到广告、算法和用户关注的影响,试图对平台进行调整的尝试就注定要失败。

Facebook 用户众多,假新闻的问题几乎可以影响到全球所有使用社交媒体的用户,造成的负面影响到全球大多数人。

Facebook 使用了一套与众不同的算法,称为 EdgeRank 算法。它的 news feed 算法和谷歌的搜索引擎算法、Netflix 的推荐算法都是分布式的复杂算法,包涵很多小的算法。

从最初依靠主观拍脑袋的“刀耕火种”时代,Facebook 一路经过收购 FriendFeed 并将其点赞的功能合并进来,到如今算法已经经过无数迭代,但总的路线——兴趣 feed 一直保持不变。Facebook 和它的新闻流算法经过 EdgeRank 算法的训练,向用户展示爱看的内容。

由于 Facebook 在信息传播中的角色已经发生了变化,成为实际上的内容分发中介,相应地大家认为其应该担负起识别信息真实性的责任。假新闻事件不断发酵后,公司陆续推出一系列措施打击假新闻,包括简化用户举报虚假资讯的流程、通过第三方事实核查机构对有争议的内容做标记等。2017 年上线了“争议标签”功能,即用户对具有争议的新闻打上举报标签,如下图所示:

不久前,Facebook 宣布调整首页信息流的算法规则,将新闻在信息流中的比例从目前的 5% 下降至 4%。

然而,这样的方法起到的效果还是十分有限,因为后续 Facebook 又发生了数次假新闻事件,也正如但华尔街时报指出的那样,Facebook 调整信息流每年几乎是例行公事,起到的效果有限,每一次严重依赖 Facebook 平台的出版商都会强势反弹。


问题出在哪儿?

这一系列的事件都把矛头指向了推荐系统,但是推荐系统技术真的错了吗?

关于低俗内容被推荐这回事,显然不是直接给推荐系统的开发方扣上一个帽子就完事那么简单。一篇内容从生产到被人消费(阅读)都大致有这么个链条:创作,发布,抓取,分发,点击,阅读。

六个环节,是三波人在参与:创作和发布是一拨人,内容生产者;抓取和分发是第二波人,很多都用上了推荐引擎;第三波进行点击和阅读就是内容消费者。现在讨伐的是低俗内容被人看到,显然只讨伐中间的推荐引擎是不合适的,当然不讨伐也是不可能的,三波人都脱不了干系。

如果推荐引擎没有人工干预的痕迹,那么一条低俗垃圾内容被推送到用户首页,最有可能的原因就是:它真的很受欢迎,因为用户行为是推荐系统最倚重的数据。在这种情况下,除了平台自查,人工干预之外,在技术上,可以尝试做这些事:


  • 在内容分析上,利用人工筛查的数据做样本,训练一些识别模型,可以把低俗垃圾内容再细分一下,分别训练不同的识别模型,辅助人工做快速筛查;
  • 在内容抓取上,控制抓取源头的质量,避开低俗垃圾内容的重灾区;
  • 在推荐分发上,从纯粹的数据驱动转变到数据启示,推荐算法的优化目标从单一目标转到多目标优化,除了考虑效果指标,还考虑内容多样性。在用户行为的使用上,也要有所甄别,考虑用户价值。在热门内容的使用上,有所甄别和有所克制,采用一些类别的热门内容或者采用某些优质用户圈子的热门内容,而非全局热门内容。等等。

无论哪家内容分发平台,他们都不愿意看到被低俗垃圾内容占据,毕竟既影响品牌形象,又有一些运营风险,但在一些利益驱动下会一直有人以身试法,所以这是一个永不停止的攻防过程,没有结束的那一天。

对于“艾莎门”这样的情况和信息流中的低俗垃圾内容泛滥一样,如果要用技术手段予以打击,那么重点还是在对内容本身的深度挖掘和识别上。“艾莎门”的难度在于,它在形式上(堆砌关键词、模仿动画片角色)做足了功课,但是在剧情上有非常强烈的暗示、色情、暴力、虐待等。

AI 前线了解到,从技术手段上还是可以利用人工标注、机器学习来识别一部分违规内容,“艾莎门”有两个特点倒是可以在训练模型时重点考虑,一个是非常强烈的色彩,可以说辣眼睛了,还有就是常常伴随尖叫和哭声,这些在正常的儿童视频中都是不正常的。但归根结底,这必须得靠人和机器协同才能见效卓著。

从多个角度看,网络上出现的这些垃圾信息推荐的问题都和推荐算法没有直接关系,这些东西都是在数据内容分析算法上需要改进。推荐算法关注的是满足用户兴趣,探明兴趣后推荐相应的东西,显然对假消息、低俗垃圾这类内容的遏制打击不应该重点在这个过程中做,而应该在源头上做。


影响推荐系统质量的因素

推荐系统能够开出这么多“恶之花”,就说明目前仍有很多难题亟待解决。 AI 前线为此采访到了推荐系统的技术专家——链家网资深算法专家刑无刀(陈开江),他认为,推荐系统目前最大的难题有这样两个:第一个是冷启动问题,第二个是探索和利用问题。

冷启动的解决方法主要还是想办法引入更多的第三方数据,让冷变热;纯技术手段解决的话,一般是强化学习,简单点就是多臂老虎机,但光靠技术手段解决冷启动有点不现实,一般要配合各种运营手段,有点“寓教于乐”的意思。

第二个问题就是探索利用问题,有时候也叫作 EE 问题。现在一切媒体会称之为信息茧房,意思就是越推越窄。究其原因,推荐算法在用户物品关系矩阵中攫取有效信息反过来填充这个矩阵,这是一个正向自我强化过程,越走越窄是宿命。这也就是在探测到用户兴趣后,只是开采利用,而不发现新的用户兴趣。可以说没有推荐系统能够避免这个归宿。如果只有开采利用,则推荐系统是一个封闭系统,封闭系统永恒熵增,无一例外都要走向冷寂,表现在推荐系统上就是,说不上你推得不好,但就是不再想看了。唯一的办法就是不要让推荐系统变成封闭系统,需要不断引入与外部的信息交换,比如不依赖用户兴趣,以随机的方式推荐,比如引入外部其他产品中的数据,等等。

除了算法本身的缺陷外,还有很多影响推荐内容质量的因素,如审核机制、用户因素、数据因素、算法策略因素、工程架构因素等都会对推荐效果产生影响。以 YouTube 的审核机制为例,我们来看看审核机制会对内容推荐产生多大的影响。

据外媒 BuzzFeed News 报道,他们所掌握的 YouTube 视频审核大纲和对 10 名现任和前“评级员”的采访透露出,YouTube 的签约搜索算法工程师表示 YouTube 系统中存在缺陷,这些所谓的“guidelines”也多有互相矛盾之处,他们推荐“高质量”视频的依据更多的是基于“产品价值”,而不管视频内容是否会引起不同年龄阶段用户的不适。这不仅导致成千上万的 Elsagate 视频在网络上传播,而且还在算法上让这些视频更容易被人搜索到。

评级员称,在过去的 10 年多时间里,他们接受了 100 多项评估设计儿童的视频是否安全的任务。“仅一天时间我就做了 50 多项关于儿童的视频,时长约 7 小时。”一名评级员说道。“然而这些视频都不是应该给孩子看的,作为父母,我对这点感到很愤怒。”这些视频虽说是动画片,但是却包含大量粗话、荤段子、伤害他人和性相关的内容。当孩子在无监督的情况下看到这些视频的时候,这真的是一件可怕的事。

据这些评级员无权决定 YouTube 上的视频的搜索结果排位,视频内容是否违背 guidelines,以及删除进行对观看观众进行年龄限制,判定为非法广告等,因为这些内容干预的权力落在 Google 和 YouTube 其他小组的手里。

在经历过这次风波之后,YouTube CEO Susan Wojcicki 站出来声称将加强平台的人工审核力度,2018 年审核工作人员将增加至 1 万名,YouTube 的评级员最近也被授予判定视频内容的权力,9-12 岁儿童在无监督的情况下看到 的内容只有在父母认为无害的情况下才可以过审。

加强审核制度的效果我们不得而知,但经验告诉我们,审核机制中的人工因素不可或缺。


好的推荐系统应该是什么样的?

那么从算法、数据、架构、产品形态等方面,如何设计一个更好的推荐系统?什么样的推荐系统是“好”的推荐系统?

先来看一组好的推荐系统带来好处的例子。

据亚马逊财报显示,该公司在第二财季销售额增长 29%至 128.3 亿美元,高于去年同期的 99 亿美元。这种增长可以说与亚马逊将推荐系统应用到从产品发掘到结账的整个采购流程几乎每一个环节中的方式有很大关系。

今日头条每年增加一亿的用户量,YouTube 结合 Google brain 推荐算法,观看时长每年都增长了 50%,推荐系统均功不可没。

以上仅是少数推荐算法为我们带来便利和好处的其中少数案例,还有很多其他的应用给用户体验带来提升也是客观存在的事实。

受访专家 刑无刀 认为:“好的系统都不是设计出来的,都是进化出来的,很难说设计一个更好的推荐系统。推荐系统终归是为产品体验服务的,还是回归本质,优化推荐系统没有什么标准手册,每天去体验自己的产品,去看数据,去洞察数据,而不是唯数据是从。”

AI 前线还了解到,深度学习在推荐系统中已经有了很多应用,典型的有:内容的表达学习、embedding;RNN 用于序列推荐;还有更多的就是代替传统的单用线性模型的融合排序上,比如 Wide&Deep 模型。这些应用都可以用来增强推荐系统的功能,优化推荐系统的体验。


反思:利益和社会权益之间的权衡

天下熙熙皆为利来,天下攘攘皆为利往,这句真理历经千年在所有时间所有地点仍然适用,利益的驱使让很多平台丢了节操。

难道所有团队都像某些平台一样没节操吗,总有坚守正确价值观的平台吧?这个问题我们不敢妄下定论,但从目前各大平台曝光的情况来看,以上所提到的各大平台,如国外的 Facebook、YouTube、谷歌等,其对违背社会道德和价值观内容的放纵,以及有引导性的搜索结果,让人不得不怀疑是背后的利益价值链在驱使着他们做出这样的选择。

在国内,最大的自媒体平台今日头条、微博等平台也遭到相关部门的介入整改,大平台尚且如此,可以想像还有多少被业内默认的潜规则在悄悄发挥着作用,让人不得不怀疑每天我们看到的信息背后隐藏着多少的利益链,也让人们思考用户如何才能摆脱“被消费”的窘境。然而,这些措施虽然可以遏制一部分违背社会价值的内容在平台上出现,但却仍会一夜之间冒出更多。

“这背后是整个内容分发平台普遍存在的‘价值失调’问题所引起的。”Selman 说道,“这是关于企业利益与社会利益之间的矛盾。”当企业利益于社会利益产生不可调和的矛盾时,监管的介入和企业的责任感,都是还用户一片净土的关键点。

总之,不仅是我们今天讨论的推荐算法这个话题,所有技术上的进步都会有“恶魔”的一面,但毕竟它们的本质只是工具,和一把手术刀一样,它可以用来杀人也可以救人,它究竟能起到什么作用,对社会是否有益还取决于使用它的人是仁医还是杀人恶魔,以及使用它的目的。

参考文章:

[1]www.foxnews.com/tech/2018/0…

[2]www.wired.com/story/dont-…

[3]www.cnet.com/news/youtub…

[4]www.buzzfeed.com/daveyalba/y…

[5]qz.com/1194566/goo…

如何从零开始快速搭建一个推荐系统?我们的被采访嘉宾刑无刀老师有一套课程推荐:

作者介绍

刑无刀,本名陈开江,现在是链家网资深算法专家,从事算法类产品的研发。曾任新浪微博资深算法工程师,考拉 FM 算法主管。从业 8 年时间,刑无刀的工作和研究范围始终没有超出推荐系统。

这些年,刑无刀曾服务过创业公司、传统大公司和大型互联网公司,这些经历也让他见证了大大小小、形状各异的推荐系统的构建过程。又因为他基本都从 0 到 1 参与了这些公司的推荐系统,所以也清楚这中间都有哪些坑。

更多干货内容,可关注AI前线,ID:ai-front,后台回复「AI」、「TF」、「大数据」可获得《AI前线》系列PDF迷你书和技能图谱。