常识对话新数据集发布与技术解析

73 阅读1分钟

数据集构建方法

通过众包平台收集超过11,000个多轮开放域对话数据。数据采集基于SocialIQA基准中的情景提示(例如"艾迪森想去墨西哥旅行并联系朋友制定计划"),每个提示由五位标注者构建多轮对话,平均每段对话包含5.7轮交互。

常识推理筛选机制

使用ConceptNet知识图谱(包含<实体1,关系,实体2>三元组)对对话进行筛选。仅保留连续对话轮次中提及的概念可通过ConceptNet三元组关联的对话,从初始25,000段对话中筛选出11,000段高质量数据。

模型训练与评估

  1. 实验设置

    • 使用GPT2预训练语言模型
    • 对比组1:传统数据集组合
    • 对比组2:新数据集+经ConceptNet识别的常识对话数据
  2. 评估指标

    • ROUGE:生成响应与参考响应的重叠度
    • 困惑度:模型生成参考响应的似然度
    • 人工评估:对测试对话子集进行人工评分
  3. 实验结果: 新数据集训练模型在三项评估中均超越基线。在SIGDIAL 2021论文中报道的自动评估指标(结合长度、DialoGPT似然分和ConceptNet三元组数量)与人工评分相关性更高。

技术贡献与展望

  • 提出面向常识推理的对话数据构建范式
  • 开发融合知识图谱特征的自动评估指标
  • 开放数据集以推动以下研究方向:
    • 显式常识推理与端到端隐式推理的对比
    • 响应合理性的心理语言学与模型开发评估框架