StyleSnap技术解析:多CNN架构实现图像搜索

4 阅读5分钟

亚马逊推出的StyleSnap功能利用AI技术,帮助用户通过照片或截图找到心仪的商品。该功能最初于2019年上线,主要针对时尚品类,近期已扩展至家居商品。

StyleSnap新功能背后的技术原理

当人们购买时尚或家居用品时,他们通常对想要的东西有大致想法。然而,当他们坐在电脑前搜索时,往往不知道准确的专业术语来快速找到目标商品。这导致用户花费不必要的时间浏览大量商品列表。

亚马逊通过StyleSnap解决了这一挑战。这项由AI驱动的功能允许用户上传来自社交媒体的图片或拍摄朋友新衣服的照片,几秒钟内就会显示他们可能感兴趣购买的相似产品。

StyleSnap通过深度学习和计算机视觉技术开发,并利用了最初为图像识别开发的卷积神经网络(CNN)。时尚版和家居版都通过使用多个CNN实现,每个网络都有特定任务,在神经网络之间分配工作负载。

“我们必须选择轻量级的网络,以便图像能够足够快地绘制,满足客户响应时间的目标,”亚马逊视觉搜索与增强现实团队的高级应用科学家表示。“我们使用一个专注于检测和分类的网络系统,然后使用另一个架构相似但稍大的网络,用于比较客户图像和目录产品图像。”

这些CNN使用了数十万张带注释的图像进行训练,使StyleSnap能够分析客户照片并返回与照片相似的推荐结果。但目标不仅仅是展示看起来相似的物品,而是提供最佳结果,帮助用户更好地购物。

系统运行机制

当客户上传喜欢的家居办公椅照片时,StyleSnap会分析该照片。CNN检测图像中的特征,并将其转换为图像属性的一系列数值表示。然后,CNN可以找到图像中的家具对象,并将其分类为多个日益具体的类别,例如家居办公和椅子。

在图像中找到的相关对象随后被输入另一个CNN,该网络将其转换为向量表示,并在亚马逊目录中找到具有相似向量表示的产品。经过一些后期处理步骤确保质量后,这些相似产品会显示给客户。

开发中的挑战与解决方案

在开发过程中,时尚版和家居版都面临一些共同的挑战。首先是客户图像可能存在物品遮挡、不同视角或嘈杂背景的问题。由于深度学习模型的主要训练数据最初来自亚马逊产品目录,这些模型在客户可能拍摄的不完美快照上表现不佳。

“真实场景图像和目录图像之间存在领域差异,”高级应用科学家指出。“我们提出的问题是,‘如何生成更多这种真实场景的图像?’”

为了模拟更真实的客户背景,团队自动分割出一个物体(例如一只鞋),并将其粘贴到不同的背景上,从室内到街景。通过在尽可能多的环境中捕捉物体,他们能够弥合领域差异并提高性能。

一个有趣的协同效应来自同一团队内的增强现实小组,该小组开发了一项AR功能,允许客户在购买前可视化产品在家中的效果——这一功能由3D产品模型驱动。为了帮助StyleSnap克服角度变化等潜在障碍,团队将这些3D模型渲染到各种背景上,作为训练数据的一部分。

“虽然3D合成数据不能替代真实图像,但它更容易生成,”Gray说。“我们可以向网络展示一百万种视角和光照的变化,这有助于网络填补相机捕捉数据的空白。”

国际化适配

神经网络通常只能识别它们被训练过的物品类别——StyleSnap最初是在美国使用西方服装开发的。随着在法国、英国和西班牙等新国家推出,团队必须调整模型以适应不同客户。但在印度推出时尚版StyleSnap则面临独特挑战。

当查看两张图片,一张是穿着kurti(印度传统束腰外衣)的女性,另一张是穿着西式束腰外衣的女性时,人类可以立即依靠颜色、图案和配饰等上下文线索识别出差异。但这对于计算机来说是一个难题。

为了确保不同地区的StyleSnap都能为各自用户群返回满意的结果,团队开发了确保高质量匹配的机制。如果有人在印度上传kurti照片,他们会得到kurti结果;如果在美国上传束腰外衣照片,他们会得到束腰外衣结果。这适用于印度的所有文化服装,包括纱丽、dhoti和lungi。FINISHED