某机构的在线目录包含数亿种产品,每天有数百万条产品列表被添加和编辑。产品数据(如图像、标题、描述和使用建议)必须完整、准确且具有吸引力,以便购物者快速找到所需商品。
为了确保产品数据的质量,某机构传统上依赖专门的机器学习模型,每个模型都针对独立的产品类别(从庭院家具到头戴式耳机)进行了优化。这些模型负责添加或更新信息、识别不准确之处、整合信息、将文本翻译成不同语言,并整合来自第三方来源的数据。
这类模型最适合处理属性列表较小且结构化的产品,例如餐盘,其尺寸、形状、颜色和材质可以很好地描述产品。但目录中有许多产品的属性更为复杂或微妙,需要经过特殊训练的机器学习模型或人工审核。
为了确保产品列表的质量满足购物者的需求,该机构转向了适应性更强、通用性更强的大语言模型。当接收到目录中的属性数据提示时,LLMs能够适应目录结构和词汇,从而有效地集成到质量控制流程中。这些目录人工智能解决方案正在以某机构商店的规模纠正和更新产品属性。
提示调优
为了使LLMs适应目录质量控制的挑战,需要让其接触产品目录的“知识”。换句话说,需要系统地让它了解最能准确描述数百万种产品和产品类型的属性语义和值。但首先,需要构建这些知识。这个过程始于按产品类型和属性值对整个目录进行总结和组织,这在某种程度上类似于对一个庞大而复杂的电子表格的行进行分组。
通过这种重组,可以观察到各种产品类型的卖家提供的属性值范围,更重要的是,可以了解这些值出现频率和位置的统计数据。这些统计数据是判断值正确性的相当好的指标。例如,如果某个类别中更高比例的产品使用了某个特定的属性值,或者具有该属性值的产品被顾客更频繁地查看,那么就可以相信这个属性是正确的。无线耳机可能具有“Bluetooth”、“BT”、“BT 5.1”或“Bluetooth version 5.1”等属性,但统计数据会表明,“Bluetooth”是告知LLMs的最佳候选值。
虽然属性统计对许多属性都有效,但并非对所有属性都有效,尤其是在涉及更微妙的情况时。某些属性的挑战在于其粒度,即它们描述产品的精确程度。例如,一种外科器械可能具有值为“不锈钢”或“440不锈钢”的属性。后者粒度更细;尽管“不锈钢”是更常见的属性值,但也不想消除“440不锈钢”。
在目录中保留这种粒度的方法是通过一个称为提示调优的迭代过程,在此过程中,通用LLMs会接触到它们将要使用的环境中出现的特定模式、规则和术语。为了向LLMs增加粒度,可能会用“返回的值必须与候选列表中值的粒度或宽泛程度相匹配”这样的短语来提示它。还可以要求LLMs解释其响应背后的推理,因为这往往能提高其性能,并为工程师提供有助于进一步微调查询的见解。
提示调优也是处理产品描述其他细微差别的方式。这些包括确保表示的一致性,例如“men’s shirt”与“men shirt”,以及维护有意义的表示值,例如电视的“4K UHD HDR”比“4K”更具信息性。
经过多轮提示调优后,LLMs可以应用于整个目录,执行三项主要任务:识别标准属性值以确定正确性;收集标准值的替代表示(同义词);以及检测错误或无意义的数据条目。
新流程确保卖家的最新值能更快地(几天内)纳入目录,并节省了数千小时的人工审核时间。更重要的是,已经能够使用LLMs增加可以监控和更新的语言数量。这种基于LLMs的方法允许将质量控制流程扩展到目录的最深处,而使用先前的流程探索这些区域成本过高。FINISHED