深度学习-ESMM核心总结

438 阅读1分钟

ESMM - Entire Space Multitask Model - 全域多任务模型

核心出发点

训练和预测的GAP

  1. 训练使用的是点击数据,包含转化作为正样本,未转化作为负样本
  2. 预测用的是所有曝光数据

image.png

CVR数据稀疏

CVR数据在实际工业场景中相对比较稀疏,训练起来比较困难

核心方法

p(z=1y=1,x)=p(y=1,z=1x)p(y=1x)p(z = 1|y = 1, x) = \frac {p(y = 1, z = 1|x)} {p(y = 1|x)}

上述式子代表了该论文的核心思想,左侧是传统的CVR预估模型,预估在整个曝光样本X下,有click(y=1)的样本汇总,转化(z=1)的概率。右侧是基于贝叶斯公式推出的等价表达式。分母为 曝光下点击的概率,分子为,曝光下同时点击、曝光的概率。如此就将样本空间从点击后的空间转化到了整个曝光空间。

image.png

上图为损失函数,第一项显然为点击率,第二项则为预估的分子概率,标签值为点击&转化,其实就是转化样本的Label。主要是这里的预测值为,cvr*ctr。分别由两个子网络预估。网络结构如下:

image.png

两个子网络采用相同的结构,并共用Embedding层,共用embedding的好处,右侧网络在非点击样本上学到的东西也能被左边的网络使用。

实验结论

  1. OVERSAMPLING和UNBIAS都有不错的效果
  2. MLP参数 360 × 200 × 80 × 2,embedding size 18

总结

论文思想很fancy,网络很清晰,效果很好,是一篇好论文