多任务模型SNR：Sub-Network Routing for Flexible Parameter Sharing in Multi-Task Learni

Sub-Network Routing for Flexible Parameter Sharing in Multi-Task Learning

论文地址：ojs.aaai.org/index.php/A…

MMoE存在的问题

MMoE示意图：在这里插入图片描述 MMoE虽然用多个门控网络解决了多个任务之间的耦合和差异问题，使得模型能较好的处理不同相关性的任务，但是MMoE里面的多个expert相互之间没有交互，这限制了模型的进一步表达。

SNR的改进之处

SNR示意图：在这里插入图片描述 SNR将exper进行了细粒度的拆分，拆分为多层，每层由多个子网络组成。低层的子网络和高层的子网络的连接信息（路由）是由一组二值变量编码来控制的，如果变量值为0，则表示这个子网络和上层子网络没有路由连接，如果为1，则表示有路由连接。路由越多，越接近share-bottom的多任务结构，路由越少，越接近2个单独的多任务结构。同时，各个子网络之间的交互连接，也进一步提高了多个任务的精度，这就是论文说的“灵活的参数共享”。

其中论文提出2种SNR，一种是高层和低层相互连接路由的SNR-Trans，一种是高层子网络都是由底层子网络加权求和得到的SNR-Aver。

具体做法

假设有2层，高层有2个子网络，低层有3个子网络。 $\mathbf u_1$ , $\mathbf u_2$ , $\mathbf u_3$ 表示低层子网络的输出， $\mathbf v_1$ , $\mathbf v_2$ 表示高层子网络的输入， $\mathbf z$ 表示二值编码变量 $z_{ij} \in \{0, 1\}$ ， $\mathbf W_{ij}$ 表示底层子网络和高层子网络的连接转换矩阵。

在这里插入图片描述优化问题如下， $f(\mathbf x_i; \mathbf W, \mathbf z)$ 是模型，这里 $z_i$ ~ $Bern(\pi_i)$ , $\mathbf \pi$ 是分布参数由于 $z_i$ 是二值变量，需要转换成连续变量来优化；随机变量 $s$ ~ $q(s;\phi)$ ，编码变量 $z$ 可以表示为 $z=g(s) = min(1, max(0,s))$ 替换 $z$ 后在这里插入图片描述将 $\mathbf s$ 表示成一个函数 $h(\phi , \epsilon)$ ， $\epsilon$ 是噪音随机变量， $s$ 可以进一步表示为加L0正则到编码变量上面，能够减少需要计算的参数量，加速计算 $Q$ 函数是关于 $s_i$ 累积分布函数所以变成在这里插入图片描述因此，最终加了L0正则的目标函数变为线上预估时， $z$ 值由下面式子计算得到