常识对话新数据集发布与技术解析

用户576110558132

2025-09-17 73 阅读1分钟

数据集构建方法

通过众包平台收集超过11,000个多轮开放域对话数据。数据采集基于SocialIQA基准中的情景提示（例如"艾迪森想去墨西哥旅行并联系朋友制定计划"），每个提示由五位标注者构建多轮对话，平均每段对话包含5.7轮交互。

常识推理筛选机制

使用ConceptNet知识图谱（包含<实体1,关系,实体2>三元组）对对话进行筛选。仅保留连续对话轮次中提及的概念可通过ConceptNet三元组关联的对话，从初始25,000段对话中筛选出11,000段高质量数据。

模型训练与评估

实验设置：
- 使用GPT2预训练语言模型
- 对比组1：传统数据集组合
- 对比组2：新数据集+经ConceptNet识别的常识对话数据
评估指标：
- ROUGE：生成响应与参考响应的重叠度
- 困惑度：模型生成参考响应的似然度
- 人工评估：对测试对话子集进行人工评分
实验结果：新数据集训练模型在三项评估中均超越基线。在SIGDIAL 2021论文中报道的自动评估指标（结合长度、DialoGPT似然分和ConceptNet三元组数量）与人工评分相关性更高。

技术贡献与展望

提出面向常识推理的对话数据构建范式
开发融合知识图谱特征的自动评估指标
开放数据集以推动以下研究方向：
- 显式常识推理与端到端隐式推理的对比
- 响应合理性的心理语言学与模型开发评估框架