自监督图像论文精读 | BYOL（SOTA） | 2020BYOL是Boostrap Your Own Latent，这

文章原创自微信公众号「机器学习炼丹术」
作者：炼丹兄
联系方式：微信cyx645016617

本篇文章主要讲解两个无监督2020年比较新比较火的论文：

论文名称：“Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning”
论文链接：arxiv.org/pdf/2006.07…

0 综述

BYOL是Boostrap Your Own Latent，这个无监督框架非常的优雅和简单，而且work。收到了很多人的称赞，上一个这样起名的在我认知中就是YOLO。两者都非常简单而优美。

1 数学符号

这个结构有两个网络，一个是online network，一个是target network。

online network：用 $\theta$ 来表示online network的参数，包含，encoder $f_{\theta}$ ,projector $g_{\theta}$ 和predictor $q_\theta$
target netowrk:使用 $\xi$ 来表示参数，也有 $f_{\xi}$ 和 $g_{\xi}$ ,但是没有predictor。

我们会更新online network，然后用滑动平均的方式，更新target network：

$\xi\leftarrow \tau\xi + (1-\tau)\theta$

现在我们有一个图像数据集D，其中获取一个图片 $x\in D$ ,然后我们对这个D做不同的图像增强，得到了两个新的分布 $\Tau$ 和 $\Tau'$ ,然后从两个新分布中获取的图片，用 $v$ 和 $v'$ 标记。也就是说，如果用 $t()$ 和 $t'()$ 表示对图像做图像增强的过程，那么 $v=t(x),v'=t'(x)$ 。

2 损失函数

我们现在有 $v$ ，经过encoder，得到 $y=f_{\theta}(v)$ ,经过prejector，得到 $z=g_{\theta}(y)$ ,经过predictor，得到 $q_{\theta}(z)$ ;同理，target network也是如此，只是没有最后的predictor，最终得到 $z'$ 。

我们对 $z'$ 和 $q_{\theta}(z)$ 做l2-normalization，含义为取出这两个隐含变量的绝对大小，而保留其方向性，为后面要做的向量点乘做铺垫。

上图中， $\bar{q_{\theta}}(z)=\frac{q_{\theta}(z)}{||q_{\theta}(z)||_2}$ ，损失函数不难，其实有点像是： $2-2\cos\theta$

上面，我们得到了损失 $L_{\theta,\xi}$ ，接下来，我们需要计算symmetric loss，这个是把v和v‘分别放入target network和online network计算，得到的 $\widetilde{L}_{\theta,\xi}$ ,然后论文中提到，通过SGD来最小化

$L^{BYOL}_{\theta,\xi}=L_{\theta,\xi} + \widetilde{L}_{\theta,\xi}$

需要注意的是，这个优化的过程，仅仅更新online network，target network的参数不变化，目的是让online network逐渐拥有target network的性能

因此，这个BYOL的整个训练过程可以浓缩成下面的两行：

3 细节部分

3.1 图像增强

3.2 结构

上图中的encoder $f_{\theta},f_{\xi}$ 使用的是resnet50和post activation，这里第一次看到post activation，就去看了一下发现，其实就是先卷积还是先激活层，如果relu放在conv后面就是post activation，relu放在conv前面就是pre activation。