ESMM - Entire Space Multitask Model - 全域多任务模型
核心出发点
训练和预测的GAP
- 训练使用的是点击数据,包含转化作为正样本,未转化作为负样本
- 预测用的是所有曝光数据
CVR数据稀疏
CVR数据在实际工业场景中相对比较稀疏,训练起来比较困难
核心方法
上述式子代表了该论文的核心思想,左侧是传统的CVR预估模型,预估在整个曝光样本X下,有click(y=1)的样本汇总,转化(z=1)的概率。右侧是基于贝叶斯公式推出的等价表达式。分母为 曝光下点击的概率,分子为,曝光下同时点击、曝光的概率。如此就将样本空间从点击后的空间转化到了整个曝光空间。
上图为损失函数,第一项显然为点击率,第二项则为预估的分子概率,标签值为点击&转化,其实就是转化样本的Label。主要是这里的预测值为,cvr*ctr。分别由两个子网络预估。网络结构如下:
两个子网络采用相同的结构,并共用Embedding层,共用embedding的好处,右侧网络在非点击样本上学到的东西也能被左边的网络使用。
实验结论
- OVERSAMPLING和UNBIAS都有不错的效果
- MLP参数 360 × 200 × 80 × 2,embedding size 18
总结
论文思想很fancy,网络很清晰,效果很好,是一篇好论文