谷歌推出两个新数据集用于改进对话式NLP

164 阅读4分钟

对话代理是一个通过NLP的对话系统,以人类语言回应一个给定的查询。它利用先进的深度学习措施和自然语言理解,达到对话代理可以超越简单的聊天机器人的回应,并使其更具有语境性。对话式人工智能包括人工智能研究的三个主要领域--自动语音识别(ASR)、自然语言处理(NLP)和文本到语音(TTS或语音合成)。这些对话系统被用来读取输入通道,然后通过输出通道以图形、语音或触觉辅助的物理手势来回答相关的反应。

现代对话模型在面对时间关系或不流畅性时经常会陷入困境。T5和GPT-3等大规模预训练的语言模型在对话中的时间推理能力在很大程度上仍未得到充分探索。提高其性能的进展缓慢,部分原因是缺乏涉及这种对话和语音现象的数据集。为了克服这些数据集问题,谷歌推出了两个新的数据集,用于对话式NLP。

谷歌的解决方案

谷歌发表的研究调查了预训练的语言模型在对话中使用TimeDialDisfl-QA的时间推理能力。这些分别有助于对话中的时间常识推理和理解上下文的不流畅性。它们是基准数据集,以证明人类的表现和当前最先进的NLP模型之间的差距。

TimeDial数据集

TimeDial使对话代理更容易进行时间上的对话,如对话中事件的持续时间、频率或相对顺序。目前的NLP模型在承担填写空白问题的任务时,往往会做出糟糕的选择,这些问题需要推理或理解时间概念的基本知识水平。TimeDial引入了一个针对时间理解的多选填空任务。

例如,我们研究了谷歌人工智能博客上显示的这个对话。

资料来源:谷歌人工智能博客

确定NLP模型理解事件之间的时间关系所需的时间,如一点半在三点之前,三点半在两者之后。这也要求他们拥有世界知识,以确定个人的会议还没有迟到。但目前的模型,如T5BERT,最终会选错答案。

契合这个问题,谷歌的TimeDial是一个基准数据集,通过设置的四个多选题,在对话的背景下衡量模型的时间常识推理能力。

谷歌主导了一项跨越三种建模范式的实验

  • 使用BERT对提供的四个选项进行分类
  • 使用BERT-MLM对对话中被掩盖的跨度进行掩码填充。
  • 使用T5的生成方法。

定量的错误分析得出结论,预训练的语言模型不能真正推理出上下文。相反,他们经常依赖于浅层的和虚假的特征,如测试匹配。这就要求找到在一般文本表示中表示时间对象的新方法。

该数据集可在以下网站公开获得:github.com/google-rese…

Disfl-QA数据集

语音识别系统产生的文本输出中会出现不流畅现象。因此,研究这种不流畅的文本以建立能理解人类语音的对话代理是非常必要的。但NLP的研究面临两个障碍。

  • 缺乏经过策划的数据集阻碍了更深入的研究和模型创新。数据集一般包含这些不流畅的内容。
  • 可用的数据集在规模和复杂性上都很有限。

这些为研究人员进行NLP模型的压力测试带来了挑战。

谷歌声称Disfl-QA是第一个包含信息搜索环境下的上下文不流畅的数据集。它是一个有针对性的数据集,包括含有这些句子复杂情况的问题(12k)。

Disfl-QA包括接近90%的更正或重启,这使得它成为一个艰难的失语纠正测试。此外,它有更广泛的语义干扰,即带有语义的干扰物,而不是更简单的言语障碍。

谷歌在一个例子的帮助下演示了这一点。

来源:谷歌人工智能博客

在这个句子中,Q1是一个关于诺曼底的位置的问题。然而,在不流畅的版本(DQ1)中,在问题被纠正之前,提到了'北欧人'。这种纠正性的不流畅混淆了QA模型,因为它依靠浅层的文本线索来回答问题。

根据他们的实验结果,在Disfl-QA上测试时,现有语言模型的表现并不令人满意。数据增强方法可以用来部分地恢复这种性能损失。研究人员还发现,NLP模型需要大规模的失语数据集,以便对失语具有鲁棒性。

该数据集的公开网址是:github.com/ google-research-datasets/disfl-qa。

The postGoogle Introduces Two New Datasets For Improved Conversational NLPappeared first onAnalytics India Magazine.