Personalized Re-ranking for Recommendation

87 阅读1分钟

PRM 论文阅读

原文:arxiv.org/pdf/1904.06…

Information

notation: image.png

一般来说,LTR的loss function如下

image.png 作者指出这样建模出来的score可能是不够的,还需要考虑两个因素,1)展示的item对的相互影响;2)用户和这些item的交互行为。 image.png 因此,本文的loss function可以写作: image.png 其中,X是list全部item的特征,PV则表示了用户个性化的矩阵,用来刻画用户-物品对的交互作用。注意,这里最后的输出yi,还是对单个item的ctr结果。并不是list ctr

Input layer

模型结构包括了三部分:input layer + encoding layer + output layer
模型以精排模型的有序输出作为输入,最终产出重排序后的item list返回

模型通过一个预训练得到的PV(Personalized Vector)来获取用户-item对的交互表征,并使用Position Embedding ,将两者concat在一起,并进行降维表示

image.png

image.png

Encoding layer

受到Transformer在机器翻译领域相比于RNN-based模型表现出的超强编码解码能力,encoding layer的主体采用了transformer编码结构 image.png image.png

Output layer

image.png

Persional vector

上文中提到的PV,是用下图C中的网络训练出来的。网络结构可以有很多,这只是一个示例。体感上就是用CTR的softmax前一层的输出作为user embedding。和CTR模型的差异,看起来是模型只输入了用户历史行为+side information作为特征,来预估itemi_ctr。这个PV的好处是啥呢,没从论文里找到,可能看的不太仔细。 image.png

实验结果

评估指标 image.png 消融实验中没有讲去掉PV是什么效果

image.png

对比了SVM RANK,lambdaMART,DNN-based Model image.png image.png

线上指标

image.png