伪标签与负样本提升语音技能匹配准确率本文介绍某中心研究人员通过伪标签生成、负反馈学习和自蒸馏技术，提升语音助手在多标签分

伪标签与负样本助力语音助手精准匹配用户请求

通过让机器学习系统自主标注训练样本，可显著提升语音助手的技能匹配性能。某中心研究人员在ICASSP 2020会议上提出创新方法，解决超10万项语音技能的动态仲裁难题。

当前语音助手平台包含超过10万项技能，采用动态仲裁技术后，用户无需记忆特定技能名称即可发起请求（如"播放大象声音"）。但多个技能可能同时匹配同一指令，传统单标签训练方式难以处理多技能关联场景。

1. 伪标签生成

2. 负样本学习

3. 自蒸馏技术

动态仲裁系统包含两大组件：

伪标签技术对HypRank的性能提升尤为显著。当Shortlister接受多标签训练后，输出列表包含正确标签的概率增加，使HypRank获得更多有效训练样本。

结合三种技术使动态仲裁系统的F1分数提升1.25%（综合考虑假阳性和假阴性率）。未来研究方向包括：

相关论文：《大规模多标签领域分类中的伪标签与负反馈学习》