YouTube是通过怎样的算法推荐视频的?看看这位小哥的推测

5,115 阅读14分钟



编译 | AI科技大本营(rgznai100)

参与 | reason_W


当下视频网站的火热程度大家都是有目共睹的,因此也产生了一些网红视频博主,比如深受营长喜爱的papi酱以及papitube的各位po主。

那么,这些网红是怎样使自己的视频迅速走红的,网站是通过哪些标准向广大吃瓜群众推荐视频的,其中使用了什么算法呢?

在视频网站不公开算法的情况下,上传视频的各大网红如何才能抓住视频分发过程中的套路,长期稳定地生产高品质视频内容?这里面到底有没有一条真正可行的路径?还是真的只能靠三俗内容来不断挑战广大观众的下限?

欢迎来到我们解析YouTube算法的第一部分。我们将从YouTube的一个动画视频制作商如何跟YouTube算法的长期斗法开始说起,看一看他在对YouTube算法一无所知的情况下,如何从数个月的运营推广经验中逆向推导出影响YouTube算法的几大因素:观看时长, 访问量、访问速度、访问时长、启动会话、上传频率、持续会话时间、结束会话时间,等等。

现在,就让我们跟着本文作者Matt Gielen,一起来探索YouTube推荐视频背后的六个秘密。


正文:

无论是故事片、舞台剧、电视节目,还是当前在线播放的各种视频,只要你是在为某种形式的发行机构创作内容,它的分发机制就能在很大程度上决定你作品的成败。

比如,你在做一部电视剧,你肯定期待它能成功。那你最好清楚什么时候插播广告最好、如何做宣传更有效果、哪个频道更契合你的内容以及该频道的收视人数能有多少等等诸如此类的问题。

然而,如果你是在YouTube上发布视频,那就比较难了,因为其分发机制上最有价值的点是YouTube算法的工作原理。毕竟,与算法相关的一切事情都比较难懂。更何况,YouTube根本没公开哪些变量是它的算法会考虑进去的因素。

但哪怕能获得的数据非常有限,为了弄清楚它是如何工作的,我们也想对这个巨大的黑箱一探究竟。有些数据对算法影响很大,拿到它们(如缩略图和标题印象,用户访问历史记录和行为,观看时长等)就能在很大程度上提高算法对透明度。但很可惜,我们没办法拿到。

不过我们还是尽可能地利用了能拿到手的数据。我和我的前同事Jeremy Rosen花了六个多月的时间来研究Frederator所拥有并运营的频道数据,想尽可能多地搞明白YouTube的算法。

在开始之前还有一些事儿我得说明下。在这篇文章中,我们会把YouTube的很多推广算法(如推荐(Recommended),建议观看(Suggested),相关视频(Related),搜索(Search),评分(MetaScore)等)统称为“YouTube算法”。它们之间存在很多差异,但在一点上是一致的,就是优化目标都是“观看时长”(=浏览人数×平均观看时长)


关于“观看时长”,可以参考作者另一篇文章

http://www.tubefilter.com/2016/05/12/youtube-watch-time-metric-algorithm-statistics/

众所周知,视频的成功与否在于观众的观看时长。本文中,我会就影响“观看时长”的几个核心变量,详细聊聊我的心得体会。


                                                                     观看时长


首先,“观看时长”并不意味着观看的分钟数。跟我们之前讨论的一样,观看时长是以下几个项目的组合:

  • 访问量和访问速度

  • 访问时长

  • 启动会话

  • 上传频率

  • 持续会话时间

  • 结束会话

基本上,这些项目中的每一个都关系到你的频道和视频表现的好坏:观众是不是经常来访问(开始一次页面访问会话),以及他们是不是会停留很长时间。

为了让你的频道跟视频在算法中累计下任何变量值(译者注:起码得让变量值不为0吧),你首先需要获取访问量。为了让这些视频“成功”(即在前30天内访问量实现等于或大于订阅者的50%的观众),你需要在视频发布开始的前数分钟、数小时、数天内获得大量的访问次数,我们将其称为访问速度。

接下来,我们先来看看两个变量的作用。


                                                             访问量和访问速度


在分析Frederator的“访问速度”时,我们发现随着前48小时订阅用户访问百分比的增加,视频的平均累计访问量也在呈指数增长:

       

根据这个发现,我们进行了一些更深入的挖掘:如果用这个“访问速度”的规律去预测视频是否会表现良好,能达到92%的准确率。

其实,视频的平均累计访问量和前72小时订阅用户访问百分比的相关性更大。


这些图和相关性充分表明,“访问量”和“访问速度”对于视频和频道的整体成功有着直接而重大的影响。

此外,有证据表明,这个影响反过来也很明显:“访问速度”低不仅对当前视频有负面影响,对前一个视频和后一个视频也有负面影响

下面这个图显示,如果Frederator上一次上传的视频在前48小时内的“访问速度”低(低的定义是指订阅用户访问百分比不到5%),则下一次上传也将受到负面影响。

       

该数据证实了马修·帕特里克在视频(https://www.youtube.com/watch?v=HLJQ0gFHM8s)中提到的理论。他的理论表明,如果你的某个视频没有被大量订阅者点击,YouTube就不会赋给你的下一次上传内容很大的订阅者推荐比重。或者是因为你的前期上传工作做得不好,使得频道的访问量变低,这反过来会导致分发机制将你的内容分发给更少的观众。但不管原因是哪个,悲催的结果是一样的。

有证据表明,低“访问速度”对新上传内容的另一个重要影响是,它也损害了你的视频库的整体访问量。

下面的第一张图表中,蓝线是前48小时订阅用户访问量,红线是前48小时订阅用户访问量与频道整体访问量的七天滚动平均百分比。 第二个图表显示了当天视频的访问次数与频道整体访问次数的百分比。


这两个图表都表明了一件事:当订阅用户访问你的新上传视频和/或频道库视频的百分比下降时,频道整体访问次数也会下降。

也就是说,通过这样的算法,YouTube会积极推广那些能吸引该频道核心观众的频道,同时积极惩罚不能吸引观众的频道。


                                                                 访问时长


我们发现,对算法有重大影响的下一个最大变量是“访问时长”。访问时长表示观众停留在单个视频页面上的时长。

这个变量有很大的权重。在我们的数据中,可以看到有一个明显的转折点:在Frederator频道今年的数据上,平均访问时长超过八分钟的视频在头30天内的访问次数比那些访问时长在五分钟以下视频的访问次数高350%。

下图显示了Frederator频道上视频的平均累计访问量与这些视频的平均访问时长的关系。


注意:这里没考虑视频持续时间大于8分钟的视频数据(因为这样只要看完视频,访问时长就大于8分钟了)。


我们还发现,访问时间越长,视频表现也会更好

下图显示了视频访问时长不到五分钟(1),五分钟到十分钟(5)和10分钟以上(10)的视频前七天的平均访问次数:

       

下图这张图也是这个意思,不过从7天拉长到整个生命周期了。

       

除了这些发现之外,我们还有个不太确定的结论,延长视频时间能提高访问数据的表现。

Frederator有一个儿童乐园的频道,每周会上传三到四个视频(时长分别是3分钟,10分钟,30分钟和70分钟)。我们注意到,即使是上传频道库的一些旧视频,70分钟时长视频的前48小时访问量也远远高于其他视频。除此之外,70分钟时长的视频与该频道上其他任何时长视频的平均访问时长相同。

我们建议他们每周只上传70分钟时长的视频。采取了我们的策略之后,儿童乐园频道每日的平均访问次数增加了50万次,同时在过去6周内的视频上传量却减少了75%。这让人很惊讶,我知道。


                                  启动会话,持续会话时间和结束会话


这项研究大部分是基于我之前发表的研究,WTF Is Watch Time?!


http://www.tubefilter.com/2016/05/12/youtube-watch-time-metric-algorithm-statistics/


具体请参考我以上研究,在此不做赘述,只简单回顾一下三个概念。

启动会话是指从你的某部视频开始,进入YouTube页面,正式开始页面访问会话的人数(译者注:可以理解成看到了你的某个视频才让用户想起来打开Youtube)。

这说明了为什么你的订阅用户的前72小时的访问量如此重要。订阅用户是在第一天就可以观看你的视频的人。他们也最可能点击该频道的缩略图,因为他们熟悉你的品牌。

持续会话时间是用户观看你的视频以及观看完后在页面上逗留的时间长短。

结束会话是指在观看你的某个视频时或看完后离开YouTube,结束页面会话的频率。


                                                                    算法理论


YouTube的算法关注频道的推广效果,而不是个人视频的效果。

YouTube的算法表明了他们对频道的期望:
  • 能让人们经常回到平台

  • 能让人们长时间停留在平台上

下面的三张图给出了这个理论的证据。

第一张图是48小时订阅者访问次数百分比和个人视频7天访问次数。它告诉我们,如果有很多用户是从你的视频开始的Youtube页面会话(即启动会话),你的视频就会获得很多的访问量。如果订阅者的访问次数达到某个阈值,访问量就会变为指数增长:

   

第二个图表显示平均每日访问次数和频道的五天滚动订阅用户访问百分比关系。

    

这意味着如果你能持续地获得大量用户启动会话(五天滚动平均),算法就会增加你的视频发送到该频道整个视频库的日访问量。

最后一张图是平均日访问次数占订阅者的百分比和频道的五天滚动访问次数百分比的关系。

     

这表明,频道的持续性和访问量之间存在相关性,而访问量又表现为订阅用户访问的百分比。

所以,假设你有一个拥有10万订阅用户的游戏频道,每天上传6个视频,并且每个视频的订阅用户访问百分比能达到5%。那么,你的滚动平均值将是稳定且适中的5%。这意味着你将在每天获得约30%的订阅用户访问量(或每天3万访问量或每月60万访问量)。如果我们假设你有1百万订阅用户的话,那这些数字将变成每天30万次访问量,每月600万访问量。

我们认为这一段数学运算没有骗人。这意味着,YouTube在根据某些确定性指标来选择频道进行推广,然后随着算法对该频道的推广,就会带来相应多的访问量。

但注意,以上分析纯属理论!


                                                                 评分算法


这里我们将对这些算法进行逆向破解,并进行重建。通过15个变量和对其权重的最佳估计,我们创建了一个评分算法。

以下是我们使用的变量:

                                       

这些变量用于开发评分算法的算法因子。

下面这些图是这些因子的实际效果。

     

     

下面这张图展示得更加详细。

   

知道你好奇,下面这张图就是我们对算法各项变量权重的一个(非常)粗略的估计:

     

     

     

然而,因为没有更多的数据,我们还不能确定在计算相关性中该使用哪种类型的回归。


                                   对YouTube(当前)算法的分析


根据我们的数据,至少可以得到6个秘密:

  1. YouTube通过算法决定了每个视频和频道能获得多少访问量。

  2. 成功的频道专注于某个特定的内容类型/想法。

  3. 频道一旦确立起成功的内容类型后,就不应该再进行太多探索。

  4. 高价内容制作者在YouTube平台上永远不会取得成功,因此这部分群体也绝不会完全接受Youtube。

  5. 个性化的节目/频道将永远是平台上的主要内容类型,因为它们就是人们要看的“特定的内容类型”。

  6. 新建立的频道,如果不能从YouTube站外导流进去的话,想要提高访问量会很不容易。

总而言之,我们认为,该算法旨在推广那些能够聚拢并保持观众粉丝群的频道。

如果你想在YouTube上取得成功,我们给你的最佳建议是,你应该专注于某个特定群体利益的市场,并尽可能对单个话题制作出长达10分钟或更长的视频。

需要提醒你的是,以上是我的私人笔记,YouTube因为它的算法遭受了很多批评,但我希望他们别将我的这篇心得体会看成一篇负面稿。

通过整个研究,我对YouTube算法工程师的了解加深了。毕竟,他们每个月都要努力应对全球10亿多兴趣各不相同的人。当你停下来从全局审视这一切,就会惊叹Youtube算法的精妙,这些设计在出色完成YouTube业务发展目标的同时,还防止了人们的滥用,保护了平台的健康发展。


(本文作者Matt Gielen,曾担任Frederator Networks前副总裁,主管编程和观众发展。 Matt管理团队建立了世界上最大的动画网络——Frederator Networks频道。此外, 他还领导了团队进行YouTube上Frederator Networks运营频道的制作和编程。本篇即为其通过数据研究分析的心得体会。)