智能创意在哈啰的应用实践

avatar
@哈啰

本文作者:潘云凤

什么是创意

创意类型及组成

潘云凤techtalk.003.png

创意的类型很多,包括商品广告创意、视频创意、UGC图文创意、营销活动创意等。右图是哈啰营销活动的banner和弹窗,可以看到banner和弹窗属于不同的创意样式,不同创意样式的元素和元素的属性也各不相同。我们在对创意进行优化的时候,可以发现样式乘以模板乘以元素数再乘以元素的属性数,这使得创意的组合是千变万化的。

如何评价创意质量

潘云凤techtalk.004.png

从算法的角度,图像质量评估有三种建模条件。一是全参考,我们同时有原始(无失真、参考)图像和失真图像,核心是对比两幅图像的信息量或特征相似度;二是半参考,只有原始图像的部分信息或从参考图像中提取的部分特征;三是无参考,也叫盲参考,只有失真图像,难度较高。有两种常用的评估指标,一是线性相关系数,也就是平时我们用的皮尔逊相关系数,用来评估两组数据之间的差异性。它的公式是两组数据的斜方差除以标准差的商值,其中N表示失真图像数。通过这个公式可以算出失真图像和真实图像的相关性,相关性越高,正值就越大,先决条件是它的数据必须要服从正态分布。如果不满足这个条件,就可以用下面的Spearman秩相关系数,在意的是在真实值和预测值序列中的排序位置。它跟皮尔逊相关系数实际上是一样的,都是越大越相关。

潘云凤techtalk.005.png

接下来介绍2016年提出的DeepBIQ模型,将原始图像切分成多个子区域,对多个子区域预测的分数进行平均来估计图像质量。这个模型之所以具有创新点,是因为首先它使用了不同的预训练模型,由于我们平时所拿到的图片数据量较少,就可以进行迁移学习,用训练好的模型固定它的网络权重,再使用现在较少的数据来进行网络的微调,把别人场景下的网络数据迁移到我们的场景当中。其次它使用了大量的图像块而不是整个图像进行的训练,同时使用了不同的特征和结果融合策略,可以看到中间的Fusion of Feature Vectors,通过输入图像的块状特征,经过了CNN的编码之后得到了特征的向量,再经过三种不同的融合策略,包括pooling+svr、comc+svr和svr+pooling,最后选取最好的一种进行模型的评估。

潘云凤techtalk.006.png

创意质量评估的第二部分是文案的通顺度。对于一个普通的句子序列,它的概率是多个概率的乘积。困惑度是导数的概念,它是句子概率乘积的导数,再开N次方。因此语言模型预测出句子出现的概率越大,就表明它的困惑度越小,也就是一个比较好的通顺度比较高的句子。

智能创意搭建内容

智能创意系统搭建主要分为四个部分,一是内容理解,如实体识别、分类、标签抽取、embedding和OCR。二是创意生成,包括程序化拼接、素材生成、布局生成和元素渲染。三是质量评估,就是上文提到的文本和图像质量评估。四是创意优选,包括bandit、CTR预估、组合搜索和多模态特征。

如何进行创意生成

什么是生成模型

潘云凤techtalk.008.png

生成模型是从一个分布为p_data的数据集中取样构成训练集去训练模型,模型会学习和模拟这一分布,我们就可以从学习到的分布中生成一些样本,样本尽可能让它与真实数据分布一致,如图像、文本等。

为什么要研究生成模型

潘云凤techtalk.009.png

一是生成模型代表我们具有能够表示和操控高维概率分布的能力,二是生成模型可以用有损失的数据进行训练,进行半监督学习,降低了我们获得数据样本的难度。三是有一些任务需要产生看起来真实的样本,如输入低分辨率的图片,生成模型可以产生接近于原分辨率的图片;从街道轮廓图生成真实图,从卫星图生成地图。这些图像复原和修复任务需要一些看起来真实的样本,生成模型可以去完成。

生成对抗网络

潘云凤techtalk.010.png

生成模型是去求解真实的概率分布,如果我们不在意概率分布本身的样子,只希望通过模型去生成与真实分布差不多的样本,我们就可以用生成对抗网络去建模。对抗是指我们需要构建两个网络,分别是判别网络和生成网络。判别网络的损失是交叉熵损失,生成网络学习的损失函数是判别网络的相反值。这是因为判别网络是为了去区分出真实样本和生成样本之间的差异,并让他们之间的区分度最大;生成网络用来生成样本,希望生成样本和真实样本区别越小越好,所以从建模的目的上说,这两个网络的损失函数需要是相反的值,加在一起是一个经典的零和博弈的问题。

这两个网络学习总目标是在判别网络损失函数最小的情况下,生成网络的损失函数也最小。训练过程就是在以下的两个步骤中交替进行,分别去训练这两个网络,对判别网络进行梯度上升,对生成网络进行梯度下降。在实际的训练过程中,并不是1+1交替进行,而是先去训练判别网络,因为只有好的判别网络之后,才能够更好地更新生成网络的参数。

Transformer

潘云凤techtalk.011.png

生成对抗网络主要运用的领域是图像生成,图像属于连续系统,难以对概率分布建模,但文本属于离散系统,用神经网络和softmax就可对概率分布建模,transformer模型主要用于文本的生成。

右图的transformer分为两个部分,分别是编码器部分和解码器部分。这里用一个比较形象的例子去阐述transformer的工作方式。第一步我们需要输入一条训练数据,以摘要生成为例,我们输入的训练数据是文章,需要输出的是摘要。在我们输入文章之后,经过encoder层得到一个编码,再经过decoder得到一个预测结果,预测结果代表词表中的词作为生成词的概率向量。比如词表中有三个词,作为生成词的概率向量分别是0.5、0.5、0.8,那么第三个词作为生成词的概率就比较高。第二步我们输入一个句子“张三回家了”中的“张”字,此时我们希望模型吐出“三”字的one-hot编码。第三步是通过刚才的机制去训练,减小损失,最终得到我们的生成模型。

如何进行创意优选

潘云凤techtalk.013.png

创意优选主要解决两个问题,一是创意到人的精准匹配,和一般的商品排序对比,创意多了很多多模态的内容,多模态内容的联合表征是创意优选的一个难点。二是长尾性加多样性,就是用户对于创意的疲劳度相对较高,它的解法是bandit模型,每种创意维护一个beta(win, lose)分布,win指的是创意被展现且被点击,lose指的是创意被展现但没有被点击,这个分布随着用户反馈的产生实时调整。

哈啰智能创意系统展示

潘云凤techtalk.016.png

哈啰在智能创意系统上做了很多实践,虽然还没有用到多模态的信息,但整个框架仍然是CTR+EE框架。同时我们也进行了一些内容理解的工作,如文案多分类、多标签提取等,对于新的创意和老的创意的解法也不一样。之后我们会上线图文搭配功能,会考虑到素材的美学搭配。同时在创意优选上会进行细粒度的优选,进行元素级的优选模型搭建。此外,会搭建更完善的报表和更智能的文案助手。

关注公众号「哈啰技术」,第一时间收到最新技术推文。