利用LLM优化亚马逊产品列表
大型语言模型正在大规模地提高产品目录的准确性、可靠性和一致性。
某机构的在线目录包含数亿种产品,每天有数百万条产品列表被添加和编辑。产品数据(包括图片、标题、描述和使用建议)必须完整、准确且具有吸引力,以便购物者能够快速找到他们想要的商品。
为确保产品数据质量,某机构传统上依赖于专门的机器学习模型,每个模型都针对独立的产品类别(从庭院家具到耳机)进行了优化。这些模型负责添加或更新信息、识别不准确之处、整合信息、将文本翻译成不同语言,以及整合来自第三方来源的数据。
这类模型最适合处理具有较小、结构化属性列表的产品,例如餐盘,其尺寸、形状、颜色和材质等属性可以很好地描述产品。但目录中有许多产品的属性更为复杂或微妙,需要专门训练的ML模型或人工审核。
为了确保产品列表的质量满足购物者的需求,研究团队转向了适应性更强、通用性更强的大型语言模型。当输入目录中的属性数据时,LLM能够适应目录结构和词汇,从而有效地集成到质量控制流程中。这些目录AI解决方案正在某机构商店的规模上校正和更新产品属性。
提示调优
为了使LLM适应目录质量控制的挑战,需要让其接触产品目录的“知识”。换句话说,需要系统地让其了解能够最准确描述数百万种产品和产品类型的属性语义和值。但首先需要构建这些知识。这个过程始于按产品类型和属性值对整个目录进行总结和组织,这在某些方面类似于对一个非常大、非常复杂的电子表格的行进行分组。
通过这种重组,可以看到各种产品类型下卖家提供的属性值范围,并且重要的是,可以看到这些值出现频率和位置的统计数据。这些统计数据是判断值正确性的相当好的指标。例如,如果一个类别中较多数量的产品使用某个属性值,或者具有某个属性值的产品被顾客更频繁地查看,那么可以相信该属性是正确的。无线耳机可能有诸如“Bluetooth”、“BT”、“BT 5.1”或“Bluetooth version 5.1”等属性值,但统计数据会表明“Bluetooth”是用于告知LLM的最佳候选值。
虽然属性统计对许多属性都有效,但并非对所有属性都有效,尤其是在涉及更细微差别时。某些属性面临的挑战之一是其粒度,即描述产品的精确程度。例如,一种外科器械的属性可能具有值“stainless steel”或“440 stainless steel”。后者粒度更细;即使“stainless steel”是更可能的属性值,也不想消除“440 stainless steel”。
在目录中保留这种粒度的方法是通过一个称为提示调优的迭代过程,在此过程中,通用LLM会接触到它们将使用的环境中出现的特定模式、规则和术语。为了向LLM添加粒度,可以用短语“返回的值必须与候选列表中值的粒度(或宽泛程度)相匹配”来提示它。还可以要求LLM提供其响应背后的推理,因为这往往能提高其性能,并让工程师深入了解如何进一步微调他们的提示。
提示调优也是处理产品描述其他细微差别的方式。这些包括确保表示的一致性(例如“men’s shirt”与“men shirt”),以及维护有意义的值的表示,例如电视的“4K UHD HDR”,这比“4K”提供更多信息。
经过多轮提示调优后,LLM就可以处理整个目录了,在其中它执行三项主要任务:识别标准属性值以确定正确性;收集标准值的替代表示(即同义词);以及检测错误或无意义的数据条目。
新流程确保最新的卖家值能更快地(几天内)包含在目录中,并节省了数千小时的人工审核时间。更重要的是,能够利用LLM来增加可以监控和更新的语言数量。基于LLM的方法使得能够将质量控制流程扩展到目录的最深处,而使用之前的流程探索这些地方的成本将高得令人望而却步。FINISHED