持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第13天，点击查看活动详情

5 实验

5.1 实验设置

数据集划分 本文对GRAILQA进行了拆分，以对所有三个泛化水平进行评估。具体来说，训练集、验证集和测试集包含大约70%/10%/20%的数据，分别对应44337、6763和13231个问题。对于验证集和测试集，50%的问题来自训练中未覆盖的保留域(零样本)，25%的问题对应于训练中未覆盖的规范逻辑形式(组合)，其余25%是从训练中随机抽样(i.i.d)。独立识别子集和组合子集有额外的约束，即所涉及的模式项都包含在训练中。对于零样本子集，5个域名用于验证，10个用于测试。

评估指标 与Text-to-SQL的评价指标类似，这里也有两种类型的评价指标。

Exact match Accuracy（EM）：即衡量预测SPARQL和真实的SPARQL是否对应一致；
F1：即预测查询结果的F1分数。

5.2 模型

实验的主要目标是彻底研究不同泛化水平的挑战，并探索潜在的解决方案。因此，本文将评估具有不同策略的模型的一系列变体，以进行搜索空间修剪和语言-本体对齐。为了更好地在文献中定位所提出模型，并展示其具有竞争力的性能，还将QGG， CcomplexWEBQ和WEBQ这三个数据集上的最先进模型，适应于GRAILQA。本文还研究了基于QALD或LC-QUAD开发的模型，但适应成本太高，因为大多数源代码都不可用。所有模型都使用相同的实体链接器(章节4.3)。

对于本文提出的模型（详见上一篇博客juejin.cn/post/715127… ，这里使用了GLOVE向量而非BERT编码。

5.3 结果

实验结果如下图表所示：

RANKING在GRAILQA上取得了最佳的整体性能。这两个模型的性能都超过了QGG，证明了它们的竞争性能。我们还观察到所有模型变体的性能都有显著下降，这表明BERT编码和VP都发挥了重要作用。

上图展示了一个更加细化的结果对比，随着问题变得更加复杂，所有模型的性能都会迅速下降。排名模型(包括Ranking和QGG)依赖主题实体来生成候选词，而这些主题实体在带有比较级或最高级的问题中通常是缺失的，例如，“which chemical element was first discovered?”他们的表现因此受到影响。

最后，作者进行了模型健壮性的测试。一个好的KBQA模型应该对不同的解释和实体基础具有鲁棒性(例如，模型可以回答“Where is the Trump tower?” 但不能回答 “Where is the Tune Hotels?”)。

实验对比如上图5所示。

5.4 误差分析

作者分析了Ranking模型出错的100个随机抽样问题，以讨论未来改进的场所。这些错误归纳为以下几类。

Coverage limitation (34%):由于GRAILQA中的问题在复杂性和功能上的多样性，RANKING生成的候选问题仅能覆盖80%左右的问题，且由于组合爆炸导致最多只能列举出2-relational逻辑形式。未发现题占错误率的34%。
Entity linking (33%):实体链接的质量是保证KBQA系统健壮性中的一个独特的挑战。
Relation mis-classification (26%)：关系被错误分类也是一个重要的因素。
Others（7%）：其他问题，例如拼写错误或者使用了错误的函数等。

5.5 迁移学习

GRAILQA可以作为一个有价值的KBQA预训练语料库，这里实验的方法是在GRAILQA上预训练模型，并测试其到WEBQ的可移植性，实验结果如下表所示：

6 相关工作

略

7 总结

本文明确提出并研究了KBQA的三个层次的泛化，即i.i.d、组合泛化和零样本泛化。本文构建并发布了GRAIL QA，一个大规模、高质量的KBQA数据集，有64331个问题，可用于评估所有三个水平的泛化。提出了一种新的基于bert的KBQA模型。

这项工作只是构建具有更强泛化能力的更实用的KBQA模型的一个起点。它开辟了许多未来方向。

首先，对于大规模KBs上的成熟QA系统，需要更复杂的、上下文敏感的实体链接器，可以用于长尾实体和表面形式的变化。实体链接尤为重要，因为主题实体在大知识库中提供了重要的锚点，可以显著地削减搜索空间，但由于实体数量庞大，链接也更具挑战性。
其次，对于复杂的问题，如果我们以暴力的方式枚举候选逻辑形式，搜索空间仍然非常大。更智能的引导搜索是一个有希望的未来方向，可以有效地生成最有希望的候选项，并修剪不太有希望的候选项。
最后，尽管经验证明像BERT这样的预训练嵌入显著促进组合和零样本泛化的，但对为什么会这样仍然缺乏更深入的理解，这可能会启发我们以更好的方式利用这些模型。

论文笔记：Beyond I.I.D.: Three Levels of Generalization for Question Answering （下）