淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。传统的 Learning to Rank(LTR)方法主要是在商品维度进行学习,根据商品的点击、成交数据构造学习样本,回归出排序权重。LTR 学习的是当前线上已经展示出来商品排序的现象,对已出现的结果集合最好的排序效果,受到了本身排序策略的影响,我们有大量的样本是不可见的,所以 LTR 模型从某种意义上说是解释了过去现象,并不一定真正全局最优的。针对这个问题,有两类的方法,其中一类尝试在离线训练中解决 online 和 offline 不一致的问题,衍生出 Counterfactural Machine Learning 的领域。另外一类就是在线 trial-and-error 进行学习,如 Bandit Learning 和 Reinforcement Learning。