论文笔记:Beyond I.I.D.: Three Levels of Generalization for Question Answering (下)

348 阅读5分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第13天,点击查看活动详情

5 实验

5.1 实验设置

数据集划分 本文对GRAILQA进行了拆分,以对所有三个泛化水平进行评估。具体来说,训练集、验证集和测试集包含大约70%/10%/20%的数据,分别对应44337、6763和13231个问题。对于验证集和测试集,50%的问题来自训练中未覆盖的保留域(零样本),25%的问题对应于训练中未覆盖的规范逻辑形式(组合),其余25%是从训练中随机抽样(i.i.d)。独立识别子集和组合子集有额外的约束,即所涉及的模式项都包含在训练中。对于零样本子集,5个域名用于验证,10个用于测试。

评估指标 与Text-to-SQL的评价指标类似,这里也有两种类型的评价指标。

  • Exact match Accuracy(EM):即衡量预测SPARQL和真实的SPARQL是否对应一致;
  • F1:即预测查询结果的F1分数。

5.2 模型

实验的主要目标是彻底研究不同泛化水平的挑战,并探索潜在的解决方案。因此,本文将评估具有不同策略的模型的一系列变体,以进行搜索空间修剪和语言-本体对齐。为了更好地在文献中定位所提出模型,并展示其具有竞争力的性能,还将QGG, CcomplexWEBQ和WEBQ这三个数据集上的最先进模型,适应于GRAILQA。本文还研究了基于QALD或LC-QUAD开发的模型,但适应成本太高,因为大多数源代码都不可用。所有模型都使用相同的实体链接器(章节4.3)。

对于本文提出的模型(详见上一篇博客juejin.cn/post/715127… ,这里使用了GLOVE向量而非BERT编码。

5.3 结果

实验结果如下图表所示:

image.png

RANKING在GRAILQA上取得了最佳的整体性能。这两个模型的性能都超过了QGG,证明了它们的竞争性能。我们还观察到所有模型变体的性能都有显著下降,这表明BERT编码和VP都发挥了重要作用。

image.png

上图展示了一个更加细化的结果对比,随着问题变得更加复杂,所有模型的性能都会迅速下降。排名模型(包括Ranking和QGG)依赖主题实体来生成候选词,而这些主题实体在带有比较级或最高级的问题中通常是缺失的,例如,“which chemical element was first discovered?”他们的表现因此受到影响。

最后,作者进行了模型健壮性的测试。一个好的KBQA模型应该对不同的解释和实体基础具有鲁棒性(例如,模型可以回答“Where is the Trump tower?” 但不能回答 “Where is the Tune Hotels?”)。

image.png

实验对比如上图5所示。

5.4 误差分析

作者分析了Ranking模型出错的100个随机抽样问题,以讨论未来改进的场所。这些错误归纳为以下几类。

  • Coverage limitation (34%):由于GRAILQA中的问题在复杂性和功能上的多样性,RANKING生成的候选问题仅能覆盖80%左右的问题,且由于组合爆炸导致最多只能列举出2-relational逻辑形式。未发现题占错误率的34%。
  • Entity linking (33%):实体链接的质量是保证KBQA系统健壮性中的一个独特的挑战。
  • Relation mis-classification (26%):关系被错误分类也是一个重要的因素。
  • Others(7%):其他问题,例如拼写错误或者使用了错误的函数等。

5.5 迁移学习

GRAILQA可以作为一个有价值的KBQA预训练语料库,这里实验的方法是在GRAILQA上预训练模型,并测试其到WEBQ的可移植性,实验结果如下表所示:

image.png

6 相关工作

7 总结

本文明确提出并研究了KBQA的三个层次的泛化,即i.i.d、组合泛化和零样本泛化。本文构建并发布了GRAIL QA,一个大规模、高质量的KBQA数据集,有64331个问题,可用于评估所有三个水平的泛化。提出了一种新的基于bert的KBQA模型。

这项工作只是构建具有更强泛化能力的更实用的KBQA模型的一个起点。它开辟了许多未来方向。

  • 首先,对于大规模KBs上的成熟QA系统,需要更复杂的、上下文敏感的实体链接器,可以用于长尾实体和表面形式的变化。实体链接尤为重要,因为主题实体在大知识库中提供了重要的锚点,可以显著地削减搜索空间,但由于实体数量庞大,链接也更具挑战性。
  • 其次,对于复杂的问题,如果我们以暴力的方式枚举候选逻辑形式,搜索空间仍然非常大。更智能的引导搜索是一个有希望的未来方向,可以有效地生成最有希望的候选项,并修剪不太有希望的候选项。
  • 最后,尽管经验证明像BERT这样的预训练嵌入显著促进组合和零样本泛化的,但对为什么会这样仍然缺乏更深入的理解,这可能会启发我们以更好的方式利用这些模型。