伪标签与负样本助力语音助手精准匹配用户请求
通过让机器学习系统自主标注训练样本,可显著提升语音助手的技能匹配性能。某中心研究人员在ICASSP 2020会议上提出创新方法,解决超10万项语音技能的动态仲裁难题。
动态仲裁系统的挑战
当前语音助手平台包含超过10万项技能,采用动态仲裁技术后,用户无需记忆特定技能名称即可发起请求(如"播放大象声音")。但多个技能可能同时匹配同一指令,传统单标签训练方式难以处理多技能关联场景。
三阶段优化方案
1. 伪标签生成
- 使用训练后的动态仲裁系统为语句分配技能标签
- 将高置信度的预测结果作为附加伪标签
- 实验显示设置p=2(标签数量)和r=4(连续周期数)时效果最佳
2. 负样本学习
- 将错误分类实例(如系统返回"我不知道"的情况)作为负样本
- 在微调过程中对高置信度选择错误标签的行为进行惩罚
3. 自蒸馏技术
- 收集系统对训练集所有样本的分类统计信息
- 在后续训练周期中将统计信息与样本共同输入模型
- 防止系统对少数强关联样本产生过度偏好
系统架构改进
动态仲裁系统包含两大组件:
- Shortlister:生成候选技能短列表
- 假设重排序器(HypRank):根据用户账户设置和对话上下文精确排序
伪标签技术对HypRank的性能提升尤为显著。当Shortlister接受多标签训练后,输出列表包含正确标签的概率增加,使HypRank获得更多有效训练样本。
实验成果
结合三种技术使动态仲裁系统的F1分数提升1.25%(综合考虑假阳性和假阴性率)。未来研究方向包括:
- 探索自蒸馏与伪标签的深层关联
- 将现有技术与标准半监督学习相结合
- 研究未标注数据自动标注对性能的进一步影响
相关论文:《大规模多标签领域分类中的伪标签与负反馈学习》