伪标签与负样本提升语音技能匹配准确率

61 阅读2分钟

伪标签与负样本助力语音助手精准匹配用户请求

通过让机器学习系统自主标注训练样本,可显著提升语音助手的技能匹配性能。某中心研究人员在ICASSP 2020会议上提出创新方法,解决超10万项语音技能的动态仲裁难题。

动态仲裁系统的挑战

当前语音助手平台包含超过10万项技能,采用动态仲裁技术后,用户无需记忆特定技能名称即可发起请求(如"播放大象声音")。但多个技能可能同时匹配同一指令,传统单标签训练方式难以处理多技能关联场景。

三阶段优化方案

1. 伪标签生成

  • 使用训练后的动态仲裁系统为语句分配技能标签
  • 将高置信度的预测结果作为附加伪标签
  • 实验显示设置p=2(标签数量)和r=4(连续周期数)时效果最佳

2. 负样本学习

  • 将错误分类实例(如系统返回"我不知道"的情况)作为负样本
  • 在微调过程中对高置信度选择错误标签的行为进行惩罚

3. 自蒸馏技术

  • 收集系统对训练集所有样本的分类统计信息
  • 在后续训练周期中将统计信息与样本共同输入模型
  • 防止系统对少数强关联样本产生过度偏好

系统架构改进

动态仲裁系统包含两大组件:

  • Shortlister:生成候选技能短列表
  • 假设重排序器(HypRank):根据用户账户设置和对话上下文精确排序

伪标签技术对HypRank的性能提升尤为显著。当Shortlister接受多标签训练后,输出列表包含正确标签的概率增加,使HypRank获得更多有效训练样本。

实验成果

结合三种技术使动态仲裁系统的F1分数提升1.25%(综合考虑假阳性和假阴性率)。未来研究方向包括:

  • 探索自蒸馏与伪标签的深层关联
  • 将现有技术与标准半监督学习相结合
  • 研究未标注数据自动标注对性能的进一步影响

相关论文:《大规模多标签领域分类中的伪标签与负反馈学习》