本文想给大家分享的是《A Univariate Bound of Area Under ROC》论文。

本文首发于公众号“码农修炼厂”，热衷于机器学习、推荐系统、数据挖掘、深度学习论文和技术的分享，欢迎关注！

还是那句话水平有限，大家多多包涵，非常欢迎任何形式的讨论，大家共同学习共同进步。码字不易，喜欢就请大家点赞、收藏、转发三连吧！

蟹蟹大家的支持，欢迎大家关注，转发，分享三连！

需要下载原论文的，可以关注公众号，后台回复“UBAUC”，下载论文！

Abstract & Intro

ROC下面积（AUC）是二元分类和二部排序问题的一个重要指标。然而，很难将AUC作为直接优化的学习目标(0-1损失是离散的)，所以现有的大多数算法都是基于对AUC的替代损失进行优化。替代损失的一个重大缺点就是他们需要对训练数据的成对比较，这导致运行时间慢，并且增加了用于在线学习的本地存储。 本文提出了一个基于AUC risk的新的替代损失，它并不需要成对比较，但仍然可以对预测进行排序。作者进一步证明了，排序操作可以被避免，并且基于该代理项得到的学习目标在时间和存储上都具有线性复杂度。最后，实验验证了基于代理损失的AUC优化在线算法和批处理算法的有效性。

Problem Definition

$\{(x_i,y_i)\}_{i=1}^N$ ,为样本， $y_i \in \{-1, +1\}$ 为标签, $x_i \in \mathcal{R}^d$ . $\mathcal{I}^+=\{i|y_i=+1\}, \mathcal{I}^-=\{i|y_i=-1\}$ 分别为正样本和负样本的下标，其中 $N^+=|\mathcal{I}^+|,N^-=|\mathcal{I}^-|, N^+ + N^- = N$ 。定义一个指示函数 $\textbf{I}：\textbf{I}_a=1$ ，为真返回1，为假返回0。二元分类器： $c_{w,\theta}: \mathcal{R}^d \mapsto \{-1, +1\}$ ：在这里插入图片描述

$f_w: \mathcal{R}^d \mapsto \mathcal{R},w$ 为参数， $\theta$ 为预测的阈值。

令 $c_i=f_w(x_i)$ 为第i个样本的预测分数，并假设预测的分数都没有完全相等的。

对于阈值 $\theta$ ，预测值大于该阈值的负样本为false positive,计算如下：在这里插入图片描述同样的，正样本阈值高于 $\theta$ 的为true positive，计算如下： AUC risk定义如下：可以看出，AUC就是正负样本错排的损失，即正样本排名低于负样本。所以 $L_{AUC}=0$ 就是最完美的排序！ $L_{AUC}$ 和 $\theta$ 相互独立。

Method

AUC Risk Without Pairwise Comparison

令 $(c_1^\uparrow, c_2^\uparrow,\dots,c_N^\uparrow)$ 为 $(c_1, c_2,\dots,c_N)$ 的升序排序，即 $c_1^\uparrow<c_2^\uparrow<\dots<c_N^\uparrow$ ,令在这里插入图片描述 $r_i$ 为第i个正样本在排序后的列表中的位置; $c_i^{\uparrow+}$ 为第i个正样本在排序后列表 $(c_1^\uparrow, c_2^\uparrow,\dots,c_N^\uparrow)$ 中对应的score，即： $c_i^{\uparrow+}=c_{r_i^+}^{\uparrow+}$ .

上图中假设 $N^+=7,N^-=6, (r_1^+, r_2^+,r_3^+,r_4^+,r_5^+,r_6^+,r_7^+)=(4, 6, 7, 8, 9, 11, 13)$ , 被圆圈圈起来的第二个正样本，它排在两个负样本的前面，因此其对于AUC risk的贡献为: $N^-+i-r_i^+$ .以此类推，对于所有的正负样本错排，我们有： $3+2+2+2+2+1+0 = 12$ ,AUC risk = $\frac{12}{6 \times 7} =\frac{2}{7}$ ,这与之前介绍的相一致。

根据这一发现，可以得出如下定理: 在这里插入图片描述依据该定理，可以很直观的来计算auc正反两对的数量，如上图的例子。

定理2： 当在训练集上的预测没有平局时: 在这里插入图片描述

证明：考虑 $r_i^+$ , 负样本的排名低于第 $i$ 个正样本的个数为 $r_i^+-i$ ，也就是说有 $N^- + i - r_i^+$ 个负样本排名高于他，（造成一个误排pair）。对所有的错排对进行求和，就得到了上面的结果。

$\sum_{i=1}^{N^+} (N^- + i)$ 为预测分数排序列表中的最大的 $N^+$ 个值的下标， $\sum_{i=1}^{N^+}r_i^+$ 为正样本在排序列表中的下标。因此，公式（2）中定义的AUC风险与两个总和之间的差值成比例。

Univariate Bound on AUC risk

下面开始正式介绍本文的方法....

通过(2)式，可以得到一个新的,基于排序后的预测分数 $(c_1^\uparrow, c_2^\uparrow,\dots,c_N^\uparrow)$ 的AUC risk替代损失：

在这里插入图片描述

$\tilde{L}$ 非负，因为第二项永远小于等于第一项

Computing $\tilde{L}$ without Explicit Ranking

公式(3)需要排序，这仍然是一个很费时的操作。 根据如下定理3,我们可以求出（3）式的一个等价形式，而不需要排序。

定理3：对于 $N$ 个实数 $z_1<\dots<z_N$ , sum-of-top-k 问题可以等价为: 在这里插入图片描述其中最优参数 $\lambda^*$ 满足 $z_{N-k} \le \lambda^* \le z_{N-k+1}$

证明：首先我们需要知道， $\sum_{N-k+1}^Nz_i$ 为如下线性规划问题的解: 其对应的拉格朗日方程为：其中 $a\ge 0,b \ge 0$ , $\lambda$ 为拉格朗日乘子. 将关于 $L$ 的偏导数 $p$ 设为 $0$ ,可以有：，带入(13)式，可以得到(12)式的对偶： (14)式的限制，告诉我们有: ,当等号成立时，目标函数获得最小值。将其重排可得到(4)式。更进一步，当我们选择 $\lambda^*$ 满足 $z_{N-k} \le \lambda^* \le z_{N-k+1}$ ，我们有:
$k\lambda^* + \sum_{i=1}^N [z_i - \lambda^*]_+ = k \lambda^* + \sum_{i=N-k+1}^N (z_i - \lambda^*) = \sum_{i=N-k+1}^N z_i$

根据定理(3)，可以将（3）式写成如下形式：在这里插入图片描述

进一步转化为：在这里插入图片描述

根据hinge loss的属性 $[a]_+ -a = [-a]_+$ :

在这里插入图片描述于是，基于 $\tilde{L}$ 的数化模型回归，形成的目标函数为：在(5)式中，辅助变量 $\lambda$ 可以理解成一个分开两类的阈值，并且与AUC风险的原始定义一样， $\tilde{L}(w)$ 通过在阈值的所有可能值上取总体最小值而独立于阈值的选择。

$\tilde{L}(w)$ 在二进制分类的上下文中提供了直观的解释，它只惩罚那些预测值低于阈值的正面例子，即 $[\lambda - f_w(x_i)]_+$ ,以及负样本预测大于阈值 $[f_w(x_i) - \lambda]_+$ . 此外，根据引理3可知，最优的 $\lambda^* \in [c_{N^+}^\uparrow, c_{N^++1}^\uparrow)$

Relation with SVM Objective

细心的同学们可能发现，当预测函数为线性的情况下 $f_w(x) = w^Tx$ , $\tilde{L}(w)$ 和SVM的目标函数有很强的相似性。

重构SVM损失函数: SVM里分类器一般为 $w^\top x + b$ ，这里为了方便比较将bias term设置为负的。如果将阈值 $\lambda$ 看成是SVM里bias，即 $w^\top x - \lambda$ , SVM的目标函数: 在这里插入图片描述可以看出上式和(5)式一样，都有hinge-loss！ $\tilde{L}_{SVM}(w,\lambda)$ 是 $\tilde{L}(w)$ 的一个upper-bound(上界)，因为

[1 + y_i(\lambda - w^\top x_i)] \ge [y_i(\lambda - w^\top x_i)]

所以，在这里插入图片描述这有助于解释一些长期的实验观察：通过AUC评估，标准SVM的表现不能一直优于其他直接使AUC最大化的方法（因为直接最大化AUC的loss其bound更紧！）

这两个目标函数在两个重要方面也有所不同:

SVM损失当中的常数1，为分类器需要建立的margin
$\tilde{L}(w)$ 中的 $\lambda$ 在最小化时就没了，而SVM中的 $\lambda$ 仍然在.(因为 $\tilde{L}(w)$ 的最后 $\lambda^* \in [c_{N^+}^\uparrow, c_{N^++1}^\uparrow)$ ，可以直接迭代优化)

OPTIMIZATION

Resolving Ties in Prediction Scores

直接优化(5)式在这里插入图片描述会存在问题: (5)式中 $w$ 的取值范围不固定，因此，可以通过缩小w的规模来降低学习目标，从而得到w=0的平凡解。

其根本原因是 $\tilde{L}(w)$ 的公式是基于预测分数中没有平局的假设，而平凡解对应的是极端相反的结果，即不管数据如何。预测函数总是产生相同的输出（0）。

为了解决这个问题，本文用另外两个项来扩充目标函数：在这里插入图片描述

其中第二项对应于一个最小二乘项，以抵消将w集中到零的影响， $\Omega(w)$ 为正则化项。

Linear Predictor

当 $f_w(x)=w^\top x$ , $\Omega(w)=\frac{1}{2}||w||^2$ 时， $[x^\top w -\lambda]_+$ 为一个凸函数。当 $\alpha\in[0,1],w,w',\lambda,\lambda'$ ：在这里插入图片描述因此 $\sum_{i=1}^N[x^\top w - \lambda]_+ + N^+ \lambda$ 为凸函数。 $\min\sum_{i=1}^N[c_i-\lambda]_+ + N^+\lambda$ 也是凸函数。