对于送货司机来说,找到包裹应该被放置的正确门前位置可能出人意料地困难。门牌号可能被树叶遮挡,或者完全缺失;一些社区使用杂乱无章的编号系统,使得门牌号难以猜测;而有时多个建筑的复合体共享同一个街道地址。
拥有客户门前的正确经纬度坐标将使投递更高效,但这些信息很难获取。当司机确认投递时,应用程序会记录当前的GPS位置,这个位置可能位于客户的门和停在路边的送货车辆之间的任何地方。此外,在城市“峡谷”中,GPS卫星的视线受到严重限制,GPS测量误差可能很大。
在一篇提交给欧洲机器学习会议的论文中,研究者借鉴了信息检索领域的一个思想——学习排序——来解决根据过去的GPS数据预测投递地点坐标的问题。
在实验中,研究者将这种新方法与解决该问题的另外两种方法——质心计算和核密度估计——进行了比较,发现新方法的表现显著优于其前代方法。在纽约州的投递数据上,新方法的误差远小于表现最好的基线方法KDE。
学习排序
在信息检索的背景下,学习排序是一种从成对偏好数据中学习的方法。如果搜索引擎呈现一个排序结果列表,用户只点击第三个搜索结果,则隐含地提供了两个成对偏好:用户更喜欢第三个搜索结果而非第一个,也喜欢第三个结果而非第二个。这提供了两个带标签的偏好对,可以帮助训练排序模型,以改进未来其他查询的搜索结果。
类似地,研究者训练一个排序模型,从一组针对特定地址的候选位置中选择最佳点。在最佳位置上的单次标记点击隐含了(几乎)所有候选位置对的偏好顺序;最接近标记位置的候选点被优先选择。因此,每次标记点击产生的训练对数量比信息检索中多得多。基础的二元分类器模型接收成对的点作为输入,并被训练为偏好更接近标记点的那个。
然而,信息检索中流行的学习排序方法与本文对其的改编之间存在一个差异。在搜索引擎场景中,算法可能需要对数万份文档或商品进行排序以产生排名。尽管模型是通过成对比较训练的,但在推理时,它没有足够的时间将每个候选文档与其他所有文档进行比较。相反,它作为回归模型独立地为每个候选评分,最终的排名只是按分数排序。
然而,在地理空间案例中,通常是离线计算的,并且每个投递地址通常需要考虑少于100个足够不同的候选位置。这使得在推理时将每个候选位置与其他所有候选进行比较变得可行:选择在成对比较中获胜最多的那个。实验表明,这比从成对数据训练的回归模型(如RankNet)产生了更好的结果。
研究中使用的主要机器学习模型是随机森林——一个由从训练数据中学习到的,例如30棵决策树组成的集成模型。每棵决策树对选定的一组数据属性执行一系列评估以产生分数。所有树分数的平均值是模型对给定输入项(即两个候选点中的哪一个)的总体分数,它指示了对其中一个候选点的偏好。
实验结果
为了生成候选位置,首先需要对过去报告的大量GPS投递位置进行稀释处理:一个紧密的点簇可能只用一两个点来代表。然后,在附近建筑物的临街面添加潜在的候选点。
每个候选点的特征向量包括基于其附近过去GPS测量点密度的特征,以及基于附近地图数据的特征。这些特征包括诸如到最近街道的距离、到最近停车场的距离、到最近建筑物的距离等等。这些类型的特征有助于模型避免选择位于街道或停车场中间的位置,而质心或KDE模型可能会轻易选择这些位置。还有一些上下文特征也有帮助,例如过去投递的数量和附近建筑物轮廓的数量。
利用各种信息丰富特征的能力解释了排序模型相对于基线的优势。并非所有区域都有可靠的地图数据,但模型性能最强的许多地址很可能有。由于基线模型无法利用这些信息,因此性能差距更大。
从技术上讲,考虑的第一个基线是一个中位数点方法,它选择最接近过去GPS测量点质心的候选位置。质心、中位数点和几何中位数方法都犯了一个失策:在多模态分布中选择了一个低密度点。
KDE方法通过寻找过去GPS点的密集簇来避免这个问题,但通常真实的门道位于簇的边缘,而不是中间。因此,确实需要一个能够利用许多不同信号(包括在线地图信息)的监督机器学习方法。该方法对地图信息不完整的区域具有一定的适应能力——例如,缺失建筑物轮廓甚至道路。
研究者还将新模型与一个总是选择最接近真实门道位置的候选位置的“先知”模型进行了比较;除非有一个全知的候选生成器或生成所有点,否则并不总是有一个极其接近地面真实标签的候选点。
下图显示了新颖的排序模型与中位数点方法、KDE方法、“先知”模型以及作为上界的随机选择在两个不同数据集(纽约州和华盛顿州)上的性能表现。y轴是损失,所以越低越好;x轴显示了损失的整体分布。
可以看出,GeoRank模型显著优于基线方法,并与“先知”模型相比表现良好。将这项工作付诸实践,已经显著提高了投递效率,为某中心的客户和“最后一英里”的送货司机都带来了益处。FINISHED