AutoFAS:自动化特征和结构搜索用于预排序阶段

1,065 阅读4分钟

论文题目:AutoFAS Automatic Feature and Architecture Selection for Pre-Ranking System[1]^{[1]}

论文来源:KDD2022

一、Motivation

先前的方法没有明确地对性能收益和计算开销进行建模,在预排序阶段延迟约束会导致模型次优的结果;另外从教师模型中迁移知识到预先定义好结构的学生模型中也会对模型有一定的影响。因此作者第一次提出在训练过程中同时选择有价值的特征和使用神经结构搜索技术[2,3]^{[2,3]}选择合适的网络结构,使得其能够在教师模型的帮助下学到更好的表示从而更好地进行排序。作者指出在推荐任务中大致有四个阶段,匹配阶段(百万级别的商品)、预排序阶段(千级别的商品)、排序阶段(百级别的商品)、重排序(十级别的商品),如下图所示:

image.png

二、Model

其模型主要包含两个部分,教师模型(左边的排序网络)和学生模型(右边的预排序网络),排序模型主要用于自适应地对多种特征进行融合和选择,预排序模型主要是由多层多个不同大小的MLP组成的网络结构,作者引入结构搜索技术在每一层中为模型选择合适的结构,避免了人工预先设置网络结构带来的难以泛化和缺乏可解释性的问题。其模型结构如下所示:

image.png

因为延迟会对模型的结构造成影响,因此作者在设计模型过程中还考虑了延迟这一隐藏属性,示意图如下所示:

image.png

其中E{latency}=thetaxL,L表示服务器记录的返回时间,具体表达式如下:

image.png

其算法大致流程包括三个部分,首先是在输入数据后训练教师模型,然后使用训练好的教师模型训练和更新mask和L参数,mask是feature mask向量,用于特征的选择,L是学生网络中结构的深度(MLP的层数),使用结构搜索技术在每一个层中选择最优的MLP(每一层由多个不同大小的MLp组成),最后是使用知识蒸馏来重新训练该选中的结构,其算法流程如下所示:

image.png

三、Data & Experments

数据使用的是美团自己的数据,然后其落地效果:落地

四、Performance

image.png

从实验结果可以看出使用该方法不仅提高了精度,还大大减少了内存消耗,这可能是因为两方面的原因,一个是因为其引入了教师模型,在知识蒸馏过程中从教师模型中学到了一些先验的知识加快了模型的收敛速度;另外一方面其引入自动化搜索技术,使得模型的结构更加多变,这样防止了因为结构单一化造成模型收敛速度变慢的情况。

五、Ablation Study

从消融实验中可以看出其每一个板块都是有用的,并且在增大学生网络参数量的情况下结构化搜索使得模型的资源消耗和时间没有明显的增长。这进一步表明了该框架的优越性。

image.png

六、Conclusion

这篇文章提出了一种端到端地自动化机器学习预排序模型。与简单地串联不同的特征不同,该模型可以同时选择合适的特征和网络结构,联合优化两个部分使得模型在计算开销和表现上都取得了不错的成绩,另外知识蒸馏技术使得预排序模型能够从教师模型中学习更加有用的知识用于预排序。

七、References

[1] Li X, Zhou X, Xiao Y, et al. AutoFAS: Automatic Feature and Architecture Selection for Pre-Ranking System[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2022: 3241-3249.

[2] Han Cai, Ligeng Zhu, and Song Han. 2019. ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware. ArXiv abs/1812.00332 (2019).

[3] Hieu Pham, Melody Guan, Barret Zoph, Quoc Le, and Jeff Dean. 2018. Efficient Neural Architecture Search via Parameters Sharing. In Proceedings of the 35th International Conference on Machine Learning (Proceedings of Machine Learning Research, Vol. 80), Jennifer Dy and Andreas Krause (Eds.). PMLR, 4095–4104. proceedings.mlr.press/v80/pham18a…