自动评估商品评论中产品提示可信度的技术方法

3 阅读5分钟

模型评估商品评论中提供提示的有效性

该方法能让客户评估支持提示可靠性的证据。

产品评论是电子商务网站中一个受欢迎且重要的功能,许多客户在购物过程中依赖于此。评论通常包含个人经验和观点,可帮助其他客户做出更明智的购买决策。此外,评论中还包含实用且非显而易见的建议,以便更好、更容易、更安全地使用产品。例如,“首次使用此相机前请充电8小时。”此类建议被称为“产品提示”。

为了节省客户浏览数十甚至数百条评论以寻找有用提示的时间,研究人员引入了从评论中自动提取提示的方法。这些提示可以展示在网站上的专用小部件中。然而,由于提示通常是非显而易见的建议,客户可能会合理地怀疑其有效性,并寻求其他客户的支持或反对。

在一篇于今年ACM信息检索特别兴趣小组(SIGIR)会议上发表的论文中,我们提出了一种方法,用于确定某个提示在多大程度上得到或反对该产品所有评论的支持。

我们方法的核心是一个模型,它能够确定一个提示与另一条评论中的句子之间的支持、矛盾或中立程度。这是一项具有挑战性的任务,因为两个自然语言句子之间的支持和矛盾有多种形式。例如,建议“首次使用此相机前请充电8小时”得到了“建议使用前充电”这句话的支持,但被“电池出厂时已预充电”的陈述所反驳。

在使用来自多个产品类别的产品提示进行的实验中,我们为每个提示检索了最多五个被模型识别为支持该提示的评论句子,以及最多五个被识别为反驳该提示的句子。在覆盖率为50%时——即当我们仅考虑模型预测置信度最高的那50%的提示-句子对时——我们的方法在检测支持关系和矛盾关系上分别达到了72%和58%的精确度。

由于我们的任务以精确度为导向,我们还考虑了25%的覆盖率,发现检测支持和矛盾关系的精确度分别提高到79%和67%。这些结果相较于现成的模型分别有8%和29%的相对提升,证明了此任务的挑战性。我们进一步发现,至少一半的提取提示有支持性评论,至少三分之一有矛盾性评论。

我们的新方法可以集成到提供提示的小部件中,同时提供其支持级别以及相关评论的链接,以便客户评估其有效性。

提示支持级别估计

我们的方法分三步操作,如下例所示:

第一步:给定一个从客户评论中提取的产品提示,我们的目标是衡量该提示从该产品的所有评论中获得的支持和矛盾数量。然而,某些产品有数千条评论,因此我们的算法会检索与提示最相似的几百个句子。我们使用基于句子嵌入的最近邻搜索来估计相似度。这样做是为了加快后续步骤,这些步骤依赖于计算更密集的模型。

第二步:使用句子到句子的支持级别分类器,我们计算提示与每个相关句子之间的支持分数和矛盾分数。支持级别分类器是一个神经模型,它在手动标注为相互支持、矛盾或中立的句子对上进行了训练。分类器输出三个分数——支持、矛盾和中性——总和为1。

第三步:最后,对所有相关句子的所有支持分数和矛盾分数进行聚合,得到一个全局支持分数和一个全局矛盾分数,这反映了所有评论相对于给定提示的支持水平。

通过能够估计提示的支持和矛盾分数,我们定义了以下分类法来描述提示:

  • 高度支持:提示有许多支持性句子且几乎没有矛盾性句子。
  • 高度矛盾:提示有许多矛盾性句子且几乎没有支持性句子。
  • 有争议:提示有许多支持性句子和许多矛盾性句子。
  • 传闻性质:提示几乎没有支持性句子且没有矛盾性句子。

为了根据此分类法检查提示的分布,我们将支持和矛盾分数分为低、中、高三个范围。然后将提示分配到它们所属的单元格,创建三乘三的热图。

作为示例,下图展示了(a)所有类别和(b)服装类别的热图。我们发现,有争议的提示在服装类别中非常常见(占提示的43%)。这些提示通常与尺码有关,例如,“订购比您通常穿的尺码大一号”,而其他评论则建议,“这个尺码很准,非常合身”。

产品评论,尤其是产品提示,对客户来说重要且有帮助。我们相信,通过展示每个提示的支持级别并提供支持或反对评论的链接,可以帮助客户评估提示的有效性,并决定对每个提示给予多少信任。FINISHED