印度团队利用机器学习优化全球购物体验

2 阅读9分钟

作为某机构印度公司的机器学习副总裁,Rajeev Rastogi正带领团队推动技术创新,这些创新不仅深刻影响了印度消费者,也对全球客户产生了重要作用。例如,由某机构在印度的科学家开发的模型已被全球采用,通过确保所有产品的图片与标题匹配来提高目录质量。此外,将配送速度作为搜索排序的一个特征——这是帮助在搜索结果中向客户展示"更快"优惠的关键因素——最初也是在某机构印度推出的。

Rastogi的职业生涯始于贝尔实验室。他早期的工作涉及开发可扩展的聚类算法——在该领域当时由处理相对较小数据集的统计学家主导的背景下,这是一项重大创新。Rastogi还曾担任某机构实验室的副总裁,他的团队开发了数据提取算法,从数十亿网页中提取结构化信息,然后以易于理解的方式呈现给用户。

Rastogi于2012年加入某机构。他在某机构的第一个项目涉及开发算法,将产品分类到某机构庞大而复杂的分类结构中——例如,将新秀丽行李箱套装分类到"登机行李箱"、"旅行箱"和"行李箱套装"中。此后,Rastogi一直致力于利用科学在多个领域产生影响,从而带来更快、更无缝和更可持续的购物体验。

在本次采访中,Rastogi谈到了他的团队为改善某机构客户购物体验而开展的项目、最近开发的帮助某机构减少印度产品运输损坏的统计模型,以及在COVID-19疫情爆发后为帮助客户安全获得所需物品而开发的创新。

问:科学在哪些方面帮助改善了某机构在印度客户的购物体验?

印度在几个重要方面都是一个独特的市场。该国拥有超过6亿在线人口,其中许多人对于数字购物相对陌生。超过85%的流量来自各种移动设备。更复杂的是,由于信号塔拥堵和切换,印度的移动客户可能会经历波动的网速。

我们开发了模型,根据设备特性、信号塔信息和上次请求的延迟等标准来预测网络速度慢或不稳定的客户。对于此类客户,我们提供自适应体验,并提供简化后的页面,其中包含更少且更易于导航的模块。

印度拥有超过22种语言和19500种方言,是一个极其多元化的国家,具有强烈的地域偏好。在古吉拉特邦搜索纱丽的客户可能对该邦流行的"Bandhani"感兴趣,而在卡纳塔克邦搜索纱丽的客户可能寻找该地区流行的"Mysore Silk"。为了在搜索结果中显示地域流行和相关的产品,我们已将产品的区域销售情况作为搜索的一个特征加入。

印度和其他新兴国家的一个关键问题是地址高度非结构化且不完整,缺少街道名称等关键地址字段。例如,我们在某机构印度网站上看到过诸如"班加罗尔 Malleswaram Orion购物中心附近"或"纳西克 Sambhaji Chowk 公交站附近"的地址。我们的团队开发了一种基于机器学习的"地址可投递性评分",用于识别难以定位和投递的劣质和不完整地址,并在地址创建时进行拦截以提高地址质量。

目录质量也可能存在问题。例如,产品的重要属性值(如颜色)可能缺失。这意味着,一双红色的鞋可能不会出现在搜索"红鞋"的客户的结果列表中。

我们使用各种深度学习模型,通过从产品标题和图片中提取颜色等属性,并回填缺失的产品信息来提高目录质量。仅举一例,我们使用注意力机制将卷积神经网络的注意力集中在想要提取产品颜色的图片部分。

我们还利用半监督学习技术来广泛训练神经网络,这大大减少了对大量标记数据的需求。这种方法的好处在于,未标记的数据可以成为信息的宝库,特别是对于理解更高层次的表征。例如,算法可以分析词语周围的文本模式,从而理解"car"和"automobile"是相似的,而无需明确指定它们是同义词。

印度是一个与众不同的市场,我为能够利用科学为客户解决一些真正困难的问题而感到自豪。

问:如何利用科学使某机构更具可持续性?

某机构已承诺到2040年实现净零碳排放,比《巴黎协定》提前十年。科学将在实现这一目标的创新中发挥极其重要的作用。

我举一个例子。在今年某机构主办的欧洲机器学习会议上,我的团队成员展示了一个新模型,用于确定特定产品的最佳包装方式。我们都见过客户对产品损坏和过度包装表示不满。不正确的包装不仅浪费且对环境有害,还会增加包装和赔偿成本。

确定产品的最佳运输方式很复杂。由于一种产品很少用所有不同的包装类型运输,因此会遇到缺乏真实数据的情况。此外,还存在在过程中强制执行排序性的问题。我们必须预测更便宜(更不坚固)的包装选项有更高的损坏概率,而更昂贵(更坚固)的选项有更低的损坏概率。强制执行排序性并非标准机器学习技术自然就能做到的。

我的团队开发的解决方案既优雅又简单。我们的科学家开发了一个线性模型,通过对模型参数精心设计约束来施加排序性。为了进一步强制执行排序性,我们使用了数据增强。这意味着,对于一个导致产品损坏的产品-包装组合,我们添加了该产品与更不坚固包装组合的示例,并同样标记为导致损坏。

我们已经将该模型应用于数十万个某机构包裹,显著减少了运输损坏,同时实际上节省了运输成本。这项创新证明了某机构印度公司非凡的科学才能。它也充分体现了我们解决重大问题的愿望和能力——那些对客户生活和整个世界产生重大影响的问题。

问:在COVID-19期间,您的团队有哪些科学创新来帮助客户安全地获得所需物品?

疫情爆发后,我开始思考作为科学家我们能做些什么来保证人们的安全,并帮助他们在这些困难时期获得所需。我们能否利用技术为每个人生成感染风险评分?政府和组织可以利用这些评分来确定检测优先级和识别需要隔离的个人。

众所周知,COVID-19通过接触传播。许多政府开发了接触者追踪应用程序,利用手机上的蓝牙信号追踪个人之间的社交接触。然而,利用这些细粒度的个人接触数据来估算每个人的感染风险评分具有挑战性。这是因为通过接触传播感染的概率取决于接触的持续时间、距离和地点(室内、室外)。此外,个人可能间接接触过COVID-19检测呈阳性的人,或者可能接触过感染者,但恰逢此人没有传染性的时期。

我与 fellow 科学家合作开发了一个概率图模型,用于模拟通过个人之间接触传播COVID-19的情况。该模型基于通常用于追踪个体不同流行病学状态的SEIR(易感-暴露-感染-移除)方法。我们的模型捕捉了这些不同状态之间的转换,同时也考虑了检测结果。我们开发了一个块吉布斯采样算法,根据接触和检测结果的数据,对每个个体的潜在感染状态进行采样。然后使用这些感染状态样本来计算每个个体的感染风险评分。我们还开发了一个蒙特卡洛期望最大化算法来推断每次接触的感染传播概率,同时考虑了接触持续时间、距离和地点等因素。

同样在疫情期间,我们的运营团队建立了虚拟取货点,以便向居住在隔离公寓楼中的客户递送包裹。问题在于:识别出居住在这些楼宇中的客户,并告知他们关于虚拟取货点的信息。我们使用地址分割机器学习模型从客户输入的送货地址中提取公寓楼名称,然后向这些客户发送电子邮件,通知他们新功能。客户对这个新功能非常兴奋——宣布虚拟取货点的电子邮件打开率超过了50%。

我在某机构已经工作了八年。我加入某机构是因为我对开展具有现实世界影响潜力的科学工作感到兴奋。当时如此,今天亦然——我每天上班都因有可能改变全球数百万人的生活而充满活力。FINISHED