概要

误差一致性
形状偏差结果
微调后的形状偏差结果

1.误差一致性

为了调查是否 变换器是否比CNN更像人类的表征，在ML、AL、认知科学和行为神经科学中，通常要看 两个决策者（无论是人类还是AI模型）是否使用相同的策略来解决一个特定的任务。

1.1.误差重叠

观察到的错误重合度由以下公式给出：

其中 ei,j 是两个系统 "一致 "的频率，即它们都正确分类或都不正确分类的频率。

1.2.科恩的k

假设一个系统i 可以有一个 pi，这是得到正确或不正确决策的概率。
通过 比较独立的二项式观察者i和j的准确度为各自的概率，计算出预期重叠度：

预期重合度可以用来 对观察到的错误重合度进行归一化处理，给出一个被称为Cohen's k的 错误一致性测量 ：

然而，它并没有考虑到系统在出错时将图像错误地归类为什么。

1.3.混淆矩阵比较

通过计算每个类别的元素被错误分类的次数，并将所犯错误的净数归一化，可以生成 C类上的错误概率分布。
然而，该分布是非常稀疏的，一个解决方案是将类聚成更高级别的类别，例如：给出16个所谓的 "入门级 "类别，为每个模型产生一个16×16的混淆矩阵 。
每个类别的误差项：

其中 ei是为某一系统定义的错误计数 。
可以计算出这些分布之间的Jensen-Shannon（JS）距离：

其中m是两个概率分布p和 q的逐点平均值（即mi=（pi+qi）/2，p和q 是两个系统的错误概率分布**），以及 D是KL发散：

JS距离是Kullback-Liebler分歧的对称化和平滑化版本。 较低的JS距离意味着分类器具有 较高的错误一致性。

混淆矩阵的列（预测标签）被折叠起来，16个真实类别的累积误差为：

其中CM 是混淆矩阵。
在这种情况下，对于给定数量的输出类（在这种情况下为16个），类的JS距离比较了哪些类被错误分类。

对于非对角线 计数**（16×16-16=240条）**，它是 类间JS距离：

2.形状偏差结果

2.1.模型

的薇特和模型模型是在ImageNet-21K（也称为 "完整的ImageNet，2011年秋季版"）和ILSVRC-2012数据集（Russakovsky等人，2015）上预训练的。
使用的ViT模型包括 ViT-B/16, ViT-B/32, 转换器-L/16和 录像-L/32，使用的ResNet模型是 BiT-M-R50×11。

2.2.数据集

(左）来自ImageNet的原始图像，和（右）纹理变换

这些模型在一个专门设计的诊断数据集上进行了测试，即 风格化图像网（SIN）数据集其中纹理和形状之间的线索冲突是由基于纹理的风格转换产生的。

2.3.结果

SIN数据集的错误一致性结果。

较高的Cohen's k 和较低的JS距离分别表示 较高的错误一致性。

对于Cohen's k和类间JS距离、 ViT 与人类的一致性要比 ResNet.

风格化图像网（SIN）数据集的不同网络的形状偏差。 垂直线表示平均数。

右边的小条形图表示准确性（答案对应于正确的纹理或形状类别）。
可以看出 ViT 比传统的CNN有更高的形状偏向。

3.微调后的结果

微调前后SIN数据集的错误一致性结果

微调使ResNet在错误一致性方面不那么像人类（在Cohen's k和类间JS距离方面有明显差异，在类间JS距离方面没有明显的趋势）。

另一方面，作者说 ViT的 错误一致性并没有随着微调而发生明显变化，事实上，它的趋势（在统计上并不明显）与ResNet相反，特别是在错误一致性方面有所改善。

形状偏差为 ResNet 和 ViT 在微调之前和之后的形状偏差。 垂直线表示平均数。

SimCLR和Hermann等人（2020）提出的增强方法 被应用于ImageNet数据集以 微调模型：
旋转（±90，随机180），随机切分（大小为2×2 px的矩形到图像宽度的一半），索贝尔滤波，高斯模糊（核大小=3×3 px），颜色失真（概率为80%的颜色抖动和概率为20%的颜色下降）和高斯噪声（标准化图像的标准偏差为0.196）。

我们看到 ResNet 在微调后增加了其形状偏差。 ViT 也在微调后增加了它的形状偏差。

形状偏差和ImageNet的准确性 准确率 和 ResNet 在增强的数据上进行微调。

在增强的数据上进行训练会增加形状偏差 ，并略微降低ImageNet的准确性，这在以前的工作中得到了证实（Hermann等人，2020）。
ResNet的精度下降比ViT更明显。

ViT和ResNet的形状偏差分析

概要