深度学习-ESMM核心总结ESMM - Entire Space Multitask Model - 全域多任务模型核

ESMM - Entire Space Multitask Model - 全域多任务模型

核心出发点

训练和预测的GAP

CVR数据稀疏

CVR数据在实际工业场景中相对比较稀疏，训练起来比较困难

p(z = 1|y = 1, x) = \frac {p(y = 1, z = 1|x)} {p(y = 1|x)}

上述式子代表了该论文的核心思想，左侧是传统的CVR预估模型，预估在整个曝光样本X下，有click（y=1）的样本汇总，转化（z=1）的概率。右侧是基于贝叶斯公式推出的等价表达式。分母为曝光下点击的概率，分子为，曝光下同时点击、曝光的概率。如此就将样本空间从点击后的空间转化到了整个曝光空间。

上图为损失函数，第一项显然为点击率，第二项则为预估的分子概率，标签值为点击&转化，其实就是转化样本的Label。主要是这里的预测值为，cvr*ctr。分别由两个子网络预估。网络结构如下：

两个子网络采用相同的结构，并共用Embedding层，共用embedding的好处，右侧网络在非点击样本上学到的东西也能被左边的网络使用。

论文思想很fancy，网络很清晰，效果很好，是一篇好论文