作为某中心印度机器学习的副总裁,Rajeev Rastogi 正带领团队推动创新,这些创新不仅对印度的购物者,而且对全球的客户都产生了深远影响。例如,由某中心在印度的科学家开发的模型已在全球范围内用于提升产品目录质量,确保所有产品的图像与标题匹配。此外,在搜索排名中加入配送速度作为特征——这是在搜索结果中向客户展示“更快”产品的关键因素——首先是在某中心印度推出的。
Rastogi 的职业生涯始于贝尔实验室。他的早期工作涉及开发可扩展的聚类算法——这在当时由处理相对较小数据集的统计学家主导的领域是一项重大创新。Rastogi 还曾担任雅虎实验室的副总裁,他的团队开发了数据提取算法,从数十亿个网页中提取结构化信息,并以易于理解的方式呈现给用户。
Rastogi 于 2012 年加入某中心。他的第一个项目涉及开发算法,将产品分类到某中心庞大而复杂的分类结构中——例如,将新秀丽行李套装分类到“登机行李箱”、“手提箱”和“行李套装”中。自那时起,Rastogi 一直致力于利用科学在多个领域产生影响,从而带来更快、更无缝和可持续的购物体验。
在这次采访中,Rastogi 谈到了他的团队为改善某中心客户的购物体验所开展的项目、一个最近开发的帮助某中心在印度减少产品运输损坏的统计模型,以及在 COVID-19 疫情爆发后为帮助客户安全获取所需而开发的创新。
问:科学在哪些方面帮助改善了某中心印度客户的购物体验?
印度市场在几个重要方面是独特的。印度有超过 6 亿人在线。其中许多人相对较新接触数字购物。超过 85% 的流量来自各种不同的移动设备。更复杂的是,由于信号塔拥堵和信号塔切换,印度的移动客户可能会遇到波动的网络速度。
我们已经开发了模型,根据设备特性、信号塔信息和最近请求的延迟等标准来预测处于慢速或不稳定网络中的客户。对于这些客户,我们提供自适应体验,并提供简化页面,其中包含较少、更易于导航的小部件。
印度拥有超过 22 种语言和 19,500 种方言,也是一个极具多样性且地区偏好强烈的国家。在古吉拉特邦搜索纱丽的客户可能对“Bandhani”(该邦流行的款式)感兴趣,而在卡纳塔克邦搜索纱丽的客户可能寻找“Mysore Silk”(该地区流行的品种)。为了在搜索结果中展示地区流行且相关的产品,我们已将产品的区域销售额作为搜索的一个特征。
印度和其他新兴国家的一个关键问题是地址高度非结构化;它们也不完整,关键地址字段(如街道名称)缺失。例如,我们在某中心印度网站上看到过诸如“Near Orion Mall, Malleswaram, Bangalore”或“Near Bus Stand, Sambhaji Chowk, Nasik”这样的地址。我们的团队开发了一种基于机器学习的“地址可投递性评分”,用于识别质量差且不完整、难以定位和投递的地址,并在地址创建时拦截它们以提高地址质量。
目录质量也可能存在问题。例如,产品的重要属性值(如颜色)可能缺失。这意味着一双鞋可能是红色的,但在客户搜索“红鞋”时可能不会出现在结果列表中。
我们使用各种深度学习模型,通过从产品标题和图像中提取颜色等属性,并回填缺失的产品信息,来提高目录质量。仅举一例,我们使用注意力机制将卷积神经网络的注意力集中到图像中我们想要提取产品颜色的部分。
我们还利用半监督学习技术广泛训练神经网络,这大大减少了对大量标注数据的依赖。我喜欢这种方法的原因是,未标注的数据可以是信息的宝库,特别是对于理解更高层次的表征。例如,算法可以分析单词周围的文本模式来理解“汽车”和“机动车”是相似的,而无需明确指定它们是同义词。
问:你们如何利用科学使某中心更具可持续性?
某中心已承诺到 2040 年实现净零碳排放,比《巴黎协定》的目标提前十年。科学将在实现这一目标的创新中发挥极其重要的作用。
让我举一个例子。在今年欧洲机器学习大会上,我团队的成员提出了一种用于确定给定产品最佳包装方式的新模型。我们都见过客户对产品损坏和过度包装不满意的情况。不正确的包装不仅浪费且对环境有害,还会增加我们的包装和赔偿成本。
确定产品的最佳运输方式很复杂。由于一种产品很少会通过所有不同类型的包装运输,因此会遇到缺乏真实数据的情况。此外,我们还有在执行过程中强加序数性的问题。我们必须预测较便宜(较不坚固)包装选项的损坏概率较高,而较昂贵(较坚固)选项的损坏概率较低。强加序数性并非标准机器学习技术天然能做到的。
我团队开发的解决方案既优雅又简单。我们的科学家开发了一个线性模型,对模型参数施加精心设计的约束以强加序数性。
为了进一步强化序数性,我们使用了数据增强。这意味着,对于导致产品损坏的产品-包装组合,我们添加了该产品与更不坚固包装搭配的示例,也标记为导致损坏。
我们已将该模型应用于数十万个某中心包裹,在显著减少运输损坏的同时,实际上节省了运输成本。这项创新证明了某中心印度不可思议的科学人才。也充分体现了我们承担真正重大问题的意愿和能力——这些问题对客户乃至全世界的生活都有重大影响。
问:您的团队有哪些科学创新来帮助客户在 COVID-19 期间安全获取所需?
疫情一爆发,我就开始思考我们作为科学家能做些什么来保障人们的安全,并在这段艰难时期帮助他们获取所需。我们能否利用技术为每个个体生成感染风险评分?政府和组织可以利用这些评分来优先安排检测并确定需要隔离的人员。
我们都知道 COVID-19 通过接触传播。许多政府开发了接触者追踪应用程序,使用手机上的蓝牙信号来跟踪个人之间的社交接触。然而,利用这种精细的个人接触数据来估计每个人的感染风险评分具有挑战性。这是因为通过接触传播感染的概率取决于接触的持续时间、距离和地点(室内、室外)。此外,个人可能间接接触过 COVID-19 检测呈阳性的人。或者他们可能接触过感染者,但在该人没有传染性的时期。
我与同事科学家合作,开发了一种称为 CRISP 的概率图模型,用于模拟 COVID-19 通过个体间接触的传播。该模型基于常用于跟踪个体不同流行病学状态的 SEIR(易感-暴露-感染-移除)方法。我们的模型捕捉了这些不同状态之间的转换,同时考虑了检测结果。我们开发了一种块吉布斯采样算法,根据接触和检测结果的数据,抽取每个个体潜在感染状态的样本。然后利用这些感染状态样本来计算每个个体的感染风险评分。我们还开发了一种蒙特卡洛期望最大化算法,以推断每次接触的感染传播概率,同时考虑接触持续时间、距离和地点等因素。
同样在疫情期间,我们的运营团队建立了虚拟取货点,向居住在隔离公寓楼的客户递送包裹。问题是:识别居住在这些楼宇中的客户,并告知他们虚拟取货点。我们使用了地址分割机器学习模型,从客户输入的送货地址中提取公寓楼名称。然后我们向这些客户发送电子邮件,通知他们新功能。客户对这个新功能非常兴奋——宣布虚拟取货点的电子邮件打开率超过 50%。
我在某中心已经八年了。我加入某中心是因为对进行具有现实世界影响力的科学工作的前景感到兴奋。那时如此,今天依然如此——我每天上班都充满活力,因为有可能为全球数百万人的生活带来改变。