Revisit Recommender System in the Permutation Prospective

一，摘要

传统的推荐系统在重排环节一般会面临两个限制：1是排列变量的影响；2是全排列面临解空间指数爆炸的问题。为解决这两个问题，这篇文章在推荐系统的重排环节，提出一种排列的优化框架（permutataion-wise framework PRS)。该框架包括了两个部分：匹配（permutataion-matching PMatch）和排序(permutation-ranking PRank)。这种新框架在离线和线上均取得了一定效果。

二，介绍

传统的重排部分大概包括三个环节：

Ranking: 前序过程根据基准排序值产生的精排结果。
Refining: 使用list-wise级别的特征做模型预估，修正排序分数。
Re-ranking: 基于修正后的排序分数，贪心的选取构成排列。然而list-wise的方式产生的结果并不一定是排列维度最优的，如下图的case。把更贵的item摆在前面，可能造成因为价差构建吸引用户点击更便宜的item。所以如何在排列维度也达到最优呢？针对这个问题，该篇文章提出了PRS框架来优化list-wise的方法。

三，PRS 框架

该框架包括了两部分，分别是匹配和排序。

匹配的目的是快速生产出候选list集合，针对该部分，作者设计了基于排列和目标导向的检索算法FPSA（Fast Permutation Searching Algorithm）。
排序则对候选list集合打分，最终选出TOP1list作为最终推荐排列组合。该部分，作者设计了DPWN网络（Deep Permutation-Wise Network），计算排列维度的LR（List Reward）指标，按照这个指标选出最终推荐组合。

3.1 PMatch 阶段

为了更好的捕捉用户浏览和点击交互动作，首先在 $p^{ctr}$ 之外，建立了用户继续浏览模型，预估用户在看到当前item后继续往下浏览的概率 $p^{next}$ 。根据这两个概率，构造定向搜索算法，快速检索候选list。在FPSA中，模拟了用户从上往下浏览某排列的过程，所以该排列的价值是预估PV和IPV的加权。

3.2 PRank 阶段

DPWN模型刻画了用户和序列中的某一个商品在整体商品排列情况下点击的概率。因此，Bi-LSTM比较合适来刻画这种关系。作者只使用真实序列来训练DPWN模型。模型结构如下： LR(List Reward)指标其实是把序列维度的 DPWN模型预估值进行加总得到，因此LR最高的表示list整体的点击率较高。

四，实验

baseline选择了point-wise和list-wise常见的模型
离线评估指标：loss、AUC等
在线评估指标：PV、IPV (item page view)，即人均曝光和人均点击

Revisit Recommender System in the Permutation Prospective

Revisit Recommender System in the Permutation Prospective

一，摘要

二，介绍

三，PRS 框架

3.1 PMatch 阶段

3.2 PRank 阶段

四，实验

五，参考