本文为课程笔记,课程地址:计算广告学
参考资料:《计算广告 互联网商业变现的市场与技术》
受众定向概念
定义:受众定向(audience targeting)是指按人群来划分对广告的售卖和优化,它是在线广告中最核心的部分。受众定向是在线广告区别于线下广告最本质的部分。
广告主要理解标签,标签具有一定的意义,更像是专家来制定的。可以从广告、用户、上下文来打标签,具有的类型如下
| 标签维度 | 标签源头 | 标签名 |
|---|---|---|
| 广告 | creative | solution、campaign、advertiser、category... |
| 用户 | cookie | age、gender、category、location... |
| 上下文 | url | channel、domain、topic... |
三个标签维度组成了三维的空间,受众定向可以认为是从AUC(广告、用户、上下文)打标签的过程;上下文标签是即时受众标签。
标签作用如下
- 建立面向广告主的流量售卖体系
- 为各估计模块(如CTR预测)提供原始特征
常见受众定向方式
横轴表示效果相关程度,纵轴表示发挥作用阶段;f(u)表示用户标签、f(c)表示上下文标签、f(a,u)表示对广告主的一种定制化标签。
配合广告的有效性模型来看,上述受众定向方式发生在不同阶段,发挥目标不同,具体定向内容摘自书中介绍,有趣的是实习中遇到下述概念,有时候会被冠以十分高大上的名字。
- 地域定向(geo-targeting): 这是一种很直觉也很早就被广泛使用的定向方式。由于很多广告主的业务有区域特性,地域定向的作用相当重要,也是所有在线广告系统都必须支持的定向方式。地域定向也可以认为是一种上下文定向,不过其计算简单,仅仅需要简单的查表就可以完成。地域定向是一种不可或缺的流量选择手段。举个例子,假设某电商网站只在北京运营和送货,那么其效果广告一般来说应该定向在北京的区域内,否则一个其他省的顾客点击广告进入购物环节后,如果发现无法结算,将会是非常差的用户体验。
- 人口属性定向(demographical targeting)。人口属性定向虽然在效果上未必特别突出,但是由于在传统广告的话语体系中大量使用这类标签来表达受众,因此它特别为品牌广告主所熟悉。在在线广告的品牌合约中也经常会有对人口属性的要求。人口属性的主要标签包括年龄、性别、教育程度、收入水平等。人口属性有一点与兴趣标签不同,那就是它是可以监测的,即可以用采样加调研的方法来判断一次人口属性定向广告活动受众中有多少比例是正确的。因此,在按 CPM 结算的广告中,人口属性比其他定向标签为广告主接受的程度更高。
- 频道定向(channel targeting)。频道定向是完全按照供应方的内容分类体系将库存按照频道划分,对各频道的流量投送不同的广告。这种定向方式比较适用于那些离转化需求比较近的垂直类媒体,如汽车、母婴、购物导航等。对于内容覆盖面比较宽的媒体,这种方式取得的效果是有限的。举一个极端的例子,如果我们把某网站的军事频道作为一个定向标签,那么很难找到直接匹配的广告需求。
- 上下文定向(contextual targeting)。将频道定向这种方法加以推广,可以根据网页的具体内容来匹配相关的广告,这就是上下文定向。上下文定向的粒度可以是关键词、主题,也可以是根据广告主需求确定的分类。上下文定向的效果在不同类别的内容上有很大的区别,但是这种方式有一个非常大的好处,那就是覆盖率比较高。对大多数广告展示,不论对当前访问用户的信息了解有多少,往往都可以根据当前浏览的页面推测用户的即时兴趣,从而推送相关广告。由于覆盖率高,上下文定向也是 ADN 中首选的定向方法之一。
- 行为定向(behaviorial targeting)。行为定向是展示广告中非常重要的一种定向方式,其框架是根据用户的历史访问行为了解用户兴趣,从而投送相关广告。行为定向之所以重要是因为它提供了一种一般性的思路,使得在互联网上收集到的用户行为数据可以产生变现的价值。因此,行为定向的框架、算法和评价指标也就奠定了在线广告数据驱动的本质特征,并催生了相关的数据加工和交易的衍生业务。如果把上下文定向看成是根据用户单次访问行为的定向,那么行为定向可以认为是一系列上下文定向的融合结果。因此,上下文定向是行为定向的基础,而且对各种类型的上下文定向都可以有相对应的行为定向方式。例如,地域定向是根据用户当前访问的 IP 来确定地理区域,相应地,也可以根据用户过去一段时间内的访问中最频繁的地理位置来定向,这种方式实际上得到的更接近于用户的经常居住地,业界有人称其为“where-on-earth”定向。
- 精确位置定向(hyper-local targeting)。在移动设备上投放广告时,我们有可能获得非常精准的地理位置。例如,利用蜂窝信息或者 GPS,地理定位的精度完全可以达到街区的粒度,如果进一步利用 Wi-Fi、蓝牙等设备的室内定位技术,精度可以进一步达到数米级。这就使得基于精确地理位置的广告成为可能,也使得大量区域性非常强的小广告主(如餐饮、美容等)有机会投放精准定位的广告,这已经与传统意义上的地域定向有了质的变化,也成为移动广告最重要的机会之一。在桌面环境中,也有数据提供商(如Experian)可以提供根据 IP 信息得出的电脑精确定位,在这些数据的支持下,桌面在线广告也可以进行精确位置定向。
- 重定向(retargeting)。这是一种最简单的定制化标签,其原理是对某个广告主过去一段时间的访客投放广告以提升效果。显然,某个广告主的访客是其独有的信息,因此这属于定制化标签。重定向被公认为精准程度最高、效果最突出的定向方式,不过其人群覆盖量往往较小。这是因为,重定向的覆盖投放量是由广告主固有用户的量和与媒体的重合比例共同决定的。
- 新客推荐定向(look-alike targeting )。由于重定向的量太小,而且无法满足广告主接触潜在用户的需求,因此不能仅仅依靠它来投送广告。新客推荐定向的思路是根据广告主提供的种子访客信息,结合广告平台更丰富的数据,为广告主找到行为上相似的潜在客户。这一方法的目的是希望在同等用户覆盖比率的情况下,达到比一些通用的兴趣标签更好的效果,这也从实质上体现了广告主数据的核心价值。新客推荐只能说是一种大致的思路,而非具体的方法,
行为定向
定义:行为定向广告是指通过深入观察网站访客的行为,利用网页特性,准确地把握访客的特征,根据访客的行为特征反映出访客的需求,根据访客的需求与偏好,把广告投放给具有这些行为特征的人看。
9种重要原始行为(按信息强度排序):Transcation、Pre-transaction(如商品浏览)、Paid、Search click、Ad click、Search、Share、Ad view;上面信息可能无法全部获取,ad view是负系数,看的越多用户越不想看。
行为定向特征生成过程
最常用的特征选择函数 将一段时间内的原始用户行为映射到确定的标签体系上,同时计算出各行为在对应标签上的累积强度作为模型的特征输入。例如,对于页面浏览行为,我们用上下文定向的方法将 URL 转换为标签,作为此次行为的标签,而一次浏览的强度置为 1;而对于搜索行为,可以根据查询词将其映射为标签,而一次搜索的强度置为 1。
特点:将各种行为日志以用户ID为Key的形式,完成作弊和无效行为标注,作为各数据处理的输入源;可以将targeting变成局部计算,大大方便整个流程。
这里要注意,我们考虑的是“一段时间内的行为”,因为过于久远的行为对于用户兴趣的贡献是很小的。如何将行为累计控制在一段时间以内,工程上有两种常用的方法,分别是滑动窗口法和时间衰减法。
Reach/CTR曲线
曲线如下所示, 一般来说,行为定向可以通过 reach/CTR 曲线来进行半定量的评测。在正常情况下,较小的人群规模应该较为精准,也即对该类型广告的 CTR 较高;而随着人群规模的扩大,该 CTR 也会逐渐走低。我们把标签接触到的人群规模称为 reach,而这一 reach 和 CTR构成的曲线是评价该标签上的定向是否合理、以及效果如何的重要依据。
首先,该曲线应该大体呈下降的趋势,如果数据质量或定向建模有一些问题,有时会出现非下降的趋势或者头部较低的情况,这意味着调低用户规模反而使得点击率下降,显然是不正常的。如果出现这种情形,需要认真检查定向流程或者判断是否已有的数据无法支持该定向标签。其次,reach/CTR 曲线最右端一个点的 CTR 水平是固定的,即无法通过改善数据和模型来提高,因此这是 reach 达到 100%,也即全部用户的情形下的 CTR水平。该曲线的斜率越大,往往表示定向模型的鉴别力越强。由于实际中一般会将阈值设定得较高,从而达到较好的定向效果,因此往往只需要关注该曲线头部的部分即可。
上下文定向
定义: 根据网页或应用的具体内容来匹配相关的广告,就是上下文广告。
上下文定向主要思路
- 用规则将页面归类到一些频道或主题分类。例如,将 auto.sohu.com 下的网页归在“汽车”这个分类中。这种方法相对简单。
- 提取页面中的关键词。这是在将搜索引擎的关键词匹配技术推广到媒体广告上时自然产生的,也是上下文定向的基本方法。
- 提取页面入链锚文本中的关键词。这需要一个全网的爬虫作支持,因此已经超出了一般意义下广告系统的范畴。
- 提取页面流量来源中的搜索关键词。这种方法除了页面内容,也需要页面访问的日志数据作支持,从技术方案上看更接近后面介绍的行为定向。
- 用主题模型将页面内容映射到语义空间的一组主题上,这样做的目的是为了泛化广告主的需求,提高市场的流动性和竞价水平。
半抓取系统
上下文页面的有关信息显然不可能在广告请求发生时实时分析得到,那么是否需要一个类似于搜索引擎爬虫的系统来预先抓取呢?对于广告系统来说,是没有这个必要的。因为页面信息对搜索引擎而言是服务的主体内容,而对广告系统而言,只是锦上添花的补充信息,完全可以设计一个更轻量级、效率更高的页面抓取系统。这一系统的设计关键是不作任何离线抓取,而在在线服务产生实际需求后才尽快抓取,把它叫作半在线(near-line)的抓取系统。
文本主题挖掘
定义:将页面内容映射到一组具有概括意义的主题上。比如将讲编程语言的博客页面映射到“IT 技术”这样的主题上。
如果把页面视为一个文档,这就对应于文本主题模型(topic model)的研究问题。文本主题模型有两大类别:一种是预先定义好主题的集合,用监督学习的方法将文档映射到这一集合的元素上;一种是不预先定义主题集合,而是控制主题的总个数或聚类程度,用非监督学习的方法自动学习出主题集合以及文档到这些主题的映射函数。
广告中的主题挖掘有两种用途:如果仅仅用于广告效果优化的特征提取,那么监督或非监督的方法都可以;如果是用于对广告主售卖的标签体系,那么应该优先考虑采用监督学习的方法,因为这样可以预先定义好对广告主有意义且可解释的标签体系,对售卖会有很大帮助(需要让人可以理解主题含义)。
对文档可进行建模,M个词组成的词表以及一组文档,采用BoW表示,文档表示为的形式,其中为词表中m个词在中对应的词频或TF-IDF值。一般情况下是稀疏的,目的是得到在每个主题上的强度。
非监督主题模型
- LSA( Latent Semantic Analysis):对矩阵做SVD分解,分解的奇异值个数对应主题的个数,U 将潜在语义空间中的主题映射到某个文档的变换矩阵,V表示 主题映射到某个文档词表中某个词的变换矩阵。
- PLSI(Probabilistic Latent Semantic Indexing):PLSI 方法是通过对文档生成的过程进行概率建模来进行主题分析(具体后序了解)。
- GaP: PLSI 模型用多项式分布来描述主题分布和主题中的词分布,而如果采用γ 泊松过程来建模,即假设每个主题生成的概率用独立的 γ 分布来描述,而主题中某词的产生服从泊松分布,就构成了γ 泊松(GaP)模型。
- LDA( Latent Dirichlet Allocation):在 PLSA 的基础上为其两个多项式分布加上了贝叶斯先验, 先验选为 Dirichelet 分布,原因是更多是数学上的便利性,因为Dirichelet 是 multinational 的共轭先验,容易求解。
有监督主题模型
无监督的主题模型技术上发展比较充分,但结合广告的业务来看,其得到的主题有时会存在混淆、不易解释等问题。因此,其结果主要适用于非直接售卖的场景,如用作点击率预测的特征。
当标签直接用于售卖时,它们往往是预先定义好的。因此,有监督的主题模型对于这种场景更加适用。它可以是一组非结构化的标签集合,也可以是一个结构化的层次标签体系。有两种思路来解决此问题:一是采用多标签分类(multi-label classification)的方法,二是沿用上面的主题模型方法,将其变成有监督主题模型。关于有监督主体模型,以上述的 LDA 为出发点,研究者也提出了若干种相关的方法。
结合广告定向的情景,可以关注两种有监督主题模型。
- 有监督的 LDA(supervised LDA,sLDA),这是在某种标签监督下进行主题挖掘的通用模型,适用于标签为各种分布的情形。当标签为离散值时,就对应于根据某种分类进行主题挖掘。
- 层次化的有监督的 LDA(Hierarchically Supervised LDA,HSLDA)。在此模型中,标注的类型是一个 Hierarchy 上的层次标签,这非常契合于广告中的需求。
将有监督的文本主题模型应用于上下文定向,虽然在标签体系的设计上可以做到更加合理,更有针对性,但也给训练过程带来了麻烦:除了准备文档集合,还需要准备对应的标签标注,这么一来训练集能够覆盖到的文档规模就受到很大限制。因此,在有监督文本主题模型的实用过程中,最关键的一点是找到系统性地进行批量标注的方法。
Topic model并行化
讲到了工程上求解混合分布的两种方法:Deterministic inference和Probabilistic inference。
EM及VBEM并行化
- E-step(mapper):可以方便地进行并行计算
- M-step(reducer):累加E-step各部分统计量后更新模型
- 将更新后模型分发到新的E-step各个计算服务器上
AD-LDA:Gibbs sampling的并行化
- Mapper:在部分data上分别进行Gibbs sampling
- Reducer:全局Update
文档的Topic model抽取可以认为是一个大量(而非海量)数据运算,采用类MPI架构的分布式计算架构(例如spark)会比 MapReduce 效率更高。
数据加工和交易
什么是精准广告?
要提高定向的精准程度与人群覆盖率,技术远不是唯一重要的因素。那么什么才是决定性的呢?是数据的来源与质量。这是正确认识精准广告业务非常重要的观点。为了强调这一观点,我们以大家更容易理解的石油加工工业为例与之做类比,如图所示。在石油工业中,从油田挖掘出的原油是整个行业的原材料,炼油厂的作用是把这一原材料加工成汽油等燃料,再输送给加油站这样的销售终端。在精准广告中,可以把用户的行为类比于石油工业中的原材料,日志收集和清洗系统的作用就相当于油田的挖掘设备。而受众定向的平台就可以类比于炼油厂,它把原油,即清洗过的日志,加工成用户标签,而这些用户标签就像汽油一样,是可以被销售和使用。而传统广告中起关键作用的广告位在这里仅仅变成了加油站,负责完成产品消费的过程而已。
精准广告业务若干错误观念
- 越精准的广告,给市场带来的价值越大(广告同时创造价值)
- 媒体利益与广告主利益是相互博弈的关系(短期相博弈)
- 精准投放加上大数据可以显著提高营收(营收提升还是靠营销)
- 人群覆盖率低的数据来源是不需要的(广告整体靠覆盖率低的标签拼凑)
- 不同的广告应该采用不同的投放机(到ssp,实时竞价,cpm售卖,最好放在一起决策)
有价值的数据
用户标识
- 除上下文和地域外各种定向的基础,需要长期积累和不断建设
- 可以通过多家第三方ID绑定不断优化
用户行为
- 用户行为业界公认有效行为数据(按有效性排序):交易,预交易,搜索广告点击,广告点击,搜索,搜索点击,网页浏览,分享,广告浏览
- 需去除网络热点话题带来的偏差
- 越靠近demand的行为对转化越有贡献
- 越主动的行为越有效
广告商(Demand)数据
- 简单的cookie植入可以用于retargeting
- 对接广告商种子人群可以做look-alike,提高覆盖率
用户属性和精确地理位置
- 非媒体广告网络很难获取,需通过第三方数据对接
- 移动互联和HTML5为获得地理位置提供了便利性
社交网络
- 朋友关系为用户兴趣和属性的平滑提供了机会
- 实名社交网络的人口属性信息相对准确
数据管理平台(Data Management Platform)
一般我们说的第一方和第二方分别是指广告主和广告平台,而不直接参与广告交易的其他数据提供方统称为第三方。在广告网络中,主要使用第二方数据指导广告投放;而在实时竞价环境下,不仅第一方数据可以被利用,大量第三方数据的加工和交易也逐渐发展起来。虽然,一般情况下第一方数据的量较小,却是所有数据的灵魂。以第一方数据为基础,用好第二方数据和第三方数据,是实时竞价时代重要的方法论。
第一方数据的收集和加工是广告市场上非常重要的环节。不过对于没有这方面技术积累的广告主而言,专门设团队进行数据加工是没有必要的。因此,市场上也产生了专从事此业务的产品,称为数据管理平台即 DMP。
目的:
- 为网站提供数据加工和对外交易能力(如Audience Science)
- 加工跨媒体用户标签,在交易市场中售卖
- 是否应直接从事广告交易存在争议
关键特征:
- 定制化用户划分
- 统一的对外数据接口:demand端提供给supply端
代表:
- Bluekai, AudienceScience
Data Highway 的工具
Scribe
- 大规模分布式日志收集系统,可以准实时收集大量日志到 HDFS,利用Thrift实现底层服务
- 类似工具: Flume, Chukwa