中断问题修复提升语音助手可访问性
通过语义图学习表示截断句子,增强模型推断缺失内容的能力。
技术实现
-
数据构建
- 改造现有数据集,将句子截断并与基于图的语义表示配对
- 包含两个专项数据集:
- 问题专用集(CUI 2023会议发布)
- 通用语句集(Interspeech 2023会议发布)
- 语义图捕获句子中每个单词的语义及词间关系
-
模型架构
- 第一阶段模型:输入不完整句子 → 输出不完整语义图
- 第二阶段模型:完成语义图 → 转换为文本输出
性能表现
- 问答场景:修复后问题相比完整问题仅少回答0.77%
- 通用场景:图相似度F值仅下降1.6%(综合考量假阳/假阴率)
应用价值
-
特殊群体支持
- 帮助痴呆症患者更顺畅使用语音助手(设置提醒、食谱选择等)
- 改善发音障碍、肌萎缩患者等非标准语音的识别
-
环境适应性
- 提升家庭/公共场所等嘈杂环境的交互鲁棒性
- 支持通过自然交互修正语音识别错误(如中途犬吠干扰)
技术延伸
- 证实计算机系统可理解不完整句子
- 为构建更自然的语音交互系统提供基础
- 公开数据集以促进学术社区共同研究