多任务学习中知识蒸馏提升收敛

4 阅读2分钟

在多任务模型(左图)中,每个任务通常有其自身的损失函数,并且在训练过程中,这些函数以不同的速率收敛(右图)。在训练期间,一种新方法尝试在性能已达到峰值的任务上保持其收益(虚线)。

机器学习

知识蒸馏用于多任务学习中的更好收敛

允许各任务按其自身计划收敛,并使用知识蒸馏来维持性能,从而提升准确率。

作者:Weiyi Lu

2022年7月13日

阅读时长:2分钟

在一个五任务多任务学习设置中的验证曲线,其中训练过程最小化各任务损失之和。蓝色、紫色和红色曲线对应的任务显示出过拟合迹象,而橙色和绿色曲线对应的任务在训练结束时欠拟合。

多任务学习通常涉及联合优化一组任务的损失。一种朴素的方法是最小化损失之和。然而,根据任务难度,各任务的收敛速度可能不同。这种朴素训练方法通常是次优的,因为模型最终可能对某些任务过拟合而对其他任务欠拟合。为了解决这个问题,许多现有方法旨在通过促进或抑制每个单独任务的学习来平衡任务间的学习速度,使所有任务具有大致相同的收敛率。这些方法包括应用静态损失权重、在训练过程中动态调整损失权重以及操控不同任务的梯度。

研究领域

机器学习、对话式AI

标签

多任务学习、知识蒸馏、NAACL

会议

NAACL 2022

相关出版物

《通过已收敛任务的知识蒸馏实现多任务学习中的异步收敛》

关于作者

Weiyi Lu:某机构应用科学家。FINISHED