MMR: Maximal Marginal Relevance

115 阅读1分钟

MMR: Maximal Marginal Relevance

最近集中整理一些和重排序相关的论文内容。

MMR

原文链接:www.cs.cmu.edu/~jgc/public…

在SIGIR 1998论文里,作者定义了经典的MMR方法: image.png

其中Q是搜索查询query, D是候选的相关物品(例如精排后的结果),S是MMR算法已经选取的物品,Sim1用来衡量物品Di和query Q的相似度,Sim2用来衡量物品间的相似度, lambda 是平衡相关度(例如CTR)和多样性的超参数(在Aribnb中通过实验分析,值设定为0.15)。公式中第一项建模了当前候选的物品 Di和搜索query Q 的相似度, 第二项表示当前候选的物品 Di 和搜索已经选取的物品的最大相似度。

MMR算法的思想是:采取贪心策略,生成top K结果列表。第一次,先选取相关度最高的物品。然后,每次选取和查询query匹配度高、和已经选取的物品最大相似度低的物品。相似度函数 Sim1和 Sim2 可以不同,根据业务需求来定。例如,在Airbnb中,Sim2函数可以基于listing间价格、位置、类型等信息来计算。

MMR成功应用在工业搜索推荐系统中。例如,使用相似度函数 Sim1 为精排分数,Sim2 为添加新商品前后选取的商品集合的类目分布的KL距离,再结合后续的业务规则,构成了简单有效的重排序模块。

参考

  1. www.zhihu.com/search?type…
  2. zhuanlan.zhihu.com/p/647143887…
  3. zhuanlan.zhihu.com/p/515279375…