NeurIPS'22 Oral|基于无目标后门水印的无害数据集版权保护很荣幸我们的近期工作 Untargeted Bac

很荣幸我们的近期工作 Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection 被Annual Conference on Neural Information Processing Systems (NeurIPS), 2022 接收为Oral Paper (TOP 2%) ! 实在太久没有体验过这种一发入魂的感觉了orz...

本文是我们在(公开)数据集版权保护任务中的第二篇工作，把上篇工作 (Workshop Version, Journal Version) 中定义的这个问题再深挖了一些。欢迎更多感兴趣的小伙伴们关注、follow公开数据集版权保护这一新的重要任务!

一、背景

高质量的公开数据集（例如开源数据集或正在售卖的商业数据集）是深度学习繁荣的一个重要因素。然而，由于这些数据集的公开特性，恶意用户很有可能在未经授权的情况下用其训练第三方商用模型，进而破坏数据集所有者的版权，给数据集的所有者造成巨大的损失。

此外，由于公开数据集的特性，现有的经典数据保护方法，例如加密、图像水印、差分隐私等，均不能直接被用于保护公开数据集的版权。具体的，加密会破坏这些数据集的可用性；恶意用户只会发布其模型而不会发布其训练细节因此防御者无法根据图像水印进行判断；差分隐私需要操纵模型的训练流程。为了解决这一问题，在上一工作中，我们首次把这个问题定义成了一个所有权认证，并设计了一种基于仅投毒式后门攻击（poison-only attacks）的方案：用仅投毒式后门攻击进行数据集水印，然后通过验证第三方可疑模型是否存在特定后门来进行所有权认证，判断该可疑模型是否曾在我方被保护的数据集上训练过。

基于后门攻击的数据集版权保护过程

在这篇工作中，我们重新审视了基于后门攻击的数据集所有权认证。我们认为，上述方法引入了新的安全威胁：攻击者可以通过模型中的后门确定性的恶意操纵模型的输出。这种引入的新安全威胁会造成数据集使用者对提供者的不信任和潜在的安全风险，进而阻碍该方法的实际使用。

我们认为，现有后门攻击的威胁主要来源于其有目标特性，即攻击者可以确定性的操作被攻击模型的输出。基于上述理解和启发，在本文中我们探索如何设计无目标后门水印 (Untargeted Backdoor Watermark, UBW) ，以及如何使用它进行无害和隐蔽的数据集所有权认证。

二、无目标后门水印

2.1 问题的定义

与现有经典的无目标（对抗）攻击不同，为了尽可能降低攻击者对模型的确定性操纵程度，我们的方法除了希望模型对被水印样本的输出与其原始类别不同外，还希望其输出是尽可能分散的（即同一类的被水印样本可能被模型（均匀）的预测成各个类别）。这是因为目标标签一般与被攻击样本的真实标签不同，因此现有的有目标后门攻击在损失上也可以被认为满足经典的无目标攻击要求。

特别的，由于均匀分布是无限制条件下的最大熵分布，我们通过熵来衡量预测结果的分散度，其具体定义如下：

问题的定义

2.2 带有中毒标签的非目标后门水印 (UBW-P)

为了最大化分散度，一种最直接的想法是改造现有的有目标后门攻击。简单来说，与其像之前那样把所有被投毒训练样本的标签设为目标标签，我们可以随机打乱被水印训练样本的标签，达到尽可能使模型对被水印样本的预测是随机的。其具体的定义和流程如下所示：

带有中毒标签的非目标后门水印

2.3 带有干净标签的非目标后门水印 (UBW-C)

根据后续试验结果，上述UBW-C可以实现很好的性能，然而，UBW-B不够隐蔽，因为这些被水印训练样本的标签是错误的。例如，一些看起来像是猫的图可能会被标记成狗。因此，当数据集使用者审视图片和标签之间的关联的时候，可能会察觉出异常。为了解决这个问题，在本部分中我们提出了一种（基于优化的）带有干净标签的非目标后门水印（UBW-C）。

相比于UBW-P，UBW-C存在一个核心难题：平均预测分散度不可导，无法被直接优化（由于其使用到了模型的预测类别）。为了解决这个问题，我们提出了它的两个可导替代分散度，其核心是使用预测概率向量来替代预测类别，具体定义如下：

两个可导的替代分散度

接下来，还剩下最后一个核心问题: 基于上述两个替代分散度，如何设计最终的优化目标？

为了解决这个问题，我们证明了如下引理和定理:

Lemma and Theorem

定理1告诉我们：平均样本分散度是平均类别分散度的下界，因此最大化平均样本分散度在某种程度上可以同时最大化平均类别分散度。因此，我们可以把最终的优化问题设计如下：

UBW-C的优化目标

三、基于无目标后门水印的数据集所有权认证

简单来说，我们可以通过判断可疑模型对被水印图片在其真实类别上的预测概率是否有明显下降（相比其对应未水印图片的预测概率），来判断该模型是否含有特定的无目标后门，进而判断该模型是否曾在保护的数据集上训练。

具体的，我们设计了一种基于单边配对样本t检验的方案来进行所有权认证，其具体定义和过程如下：

基于UBW的数据集所有权认证的具体过程

四、实验结果

首先，我们在CIFAR-10和ImageNet（子集）上验证了本文所提无目标水印的有效性和无害性：

我们也在这两个数据集上验证了所提所有权认证方案的有效性和准确性：

当然，我们也讨论了所提方法对一些经典后门移除方案的鲁棒性：

写在最后

热烈欢迎对本文感兴趣的小伙伴们通过评论、私信、邮件等方式联系我们。如果对我们在AI安全领域 (backdoor learning, adversarial learning, copyright protection in DL) 别的相关工作感兴趣，也欢迎大家refer我的homepage。希望能与大家一起讨论、合作、愉快玩耍~

Greetings and welcome to my homepage