模型评估产品评论中建议的有效性
该方法使客户能够评估建议可靠性的支持证据。
产品建议的重要性
产品评论是电子商务网站中受欢迎且重要的功能,许多客户在购物过程中依赖这些评论。评论通常包含个人经验和意见,可以帮助其他客户做出更明智的购买决策。此外,评论还包含实用且非显而易见的建议,以便更好、更轻松、更安全地使用产品。例如,"首次使用此相机前充电8小时"。此类推荐被称为"产品建议"。
为了节省客户阅读数十甚至数百条评论以寻找有用建议的时间,研究人员引入了从评论中自动提取建议的方法。这些建议可以显示在网站的专用小部件中。然而,由于建议通常是非显而易见的推荐,客户可能会合理地质疑其有效性,并寻求其他客户的支持或反对意见。
支持度评估方法
在ACM信息检索特别兴趣组(SIGIR)会议上发表的一篇论文中,我们提出了一种方法,用于确定建议受到产品所有评论支持或反对的程度。
我们方法的核心是一个模型,用于确定建议与另一条评论中的句子之间的支持、矛盾或中立程度。这是一项具有挑战性的任务,因为两个自然语言句子之间的支持和矛盾有多种形式。例如,建议"首次使用此相机前充电8小时"受到句子"建议使用前充电"的支持,但被陈述"电池已预充电"所反驳。
实验成果
在使用来自多个产品类别的产品建议进行的实验中,我们为每个建议检索了最多五个被模型识别为支持该建议的评论句子,以及最多五个被识别为反驳该建议的句子。在覆盖率为50%时,我们的方法在检测支持关系和矛盾关系方面分别达到72%和58%的精确度。
由于我们的任务以精确度为导向,我们还考虑了25%的覆盖率,发现在检测支持和矛盾关系时,精确度分别提高到79%和67%。这些结果反映了相对于现成模型8%和29%的相对改进,证明了此任务的挑战性。我们进一步发现,至少一半的提取建议有支持性评论,至少三分之一有矛盾性评论。
我们的新方法可以集成到提供建议的小部件中,并提供其支持水平和相关评论的链接,以便客户评估其有效性。
建议支持度估计
我们的方法按三个步骤操作,如下例所示:
步骤1:给定从客户评论中提取的产品建议,我们的目标是衡量该建议受到该产品所有评论支持和矛盾的程度。然而,某些产品有数千条评论,因此我们的算法检索与建议相似度最高的几百个句子。我们使用句子嵌入的最近邻搜索来估计相似度。这样做是为了加快后续步骤,这些步骤依赖于更计算密集的模型。
步骤2:使用句子到句子的支持级别分类器,我们计算建议与每个相关句子之间的支持分数和矛盾分数。支持级别分类器是一个神经模型,在手动标注为相互支持、矛盾或中立的句子对上进行训练。分类器输出三个分数——支持、矛盾和中立——总和为1。
步骤3:最后,所有支持分数和矛盾分数在所有相关句子上聚合,提供全局支持分数和全局矛盾分数,反映所有评论相对于给定建议的支持水平。
建议分类
通过估计建议的支持和矛盾分数的能力,我们定义以下分类法来表征建议:
- 高度支持:具有许多支持性且几乎没有矛盾句子的建议
- 高度矛盾:具有许多矛盾性且几乎没有支持句子的建议
- 有争议:具有许多支持性和许多矛盾性句子的建议
- 个别经验:几乎没有支持和矛盾句子的建议
为了根据此分类法检查建议的分布,我们将支持和矛盾分数分为低、中、高三个范围。然后将建议分配到它们所属的单元格,创建三乘三的热图。
作为示例,下图展示了(a)所有类别和(b)服装类别的热图。我们发现争议性建议在服装类别中非常常见(占建议的43%)。这些建议通常与尺寸相关,例如"订购比您通常穿的尺寸大一号",而其他评论则建议"这个尺寸准确,非常合身"。
结论
产品评论,特别是产品建议,对客户很重要且很有帮助。我们相信,通过显示每个建议的支持水平并提供支持或反对评论的链接,我们可以帮助客户评估建议的有效性并决定给予每个建议多少信任。