0. 准确性和召回率

首先介绍HPatches中关于准确性和召回率的计算方法：

首先对于一个patch查询，给出一个有序的patch列表，使用 $\mathbf{y} = (y_1, \ldots, y_n) \in \{-1, 0, +1\}^n$ 表格式这个列表对应标签，-1代表negative， +1代表positive， 0代表ignore。

那么对于 rank $i$ 的准确性和召回率分别使用如下公式进行计算

准确性: 前 $i$ 个元素中positive的样本占比

P_i(\mathbf{y}) = \frac{\sum_{k=1}^{i}[y_k]_+}{\sum_{k=1}^{i}|y_k|}

其中 $[z]_+ = \max \{0, z\}$

召回率：前 $i$ 个元素中positive的样本整个序列中全部positive样本的比例

R_i(\mathbf{y}) = \frac{\sum_{k=1}^{i}[y_k]_+}{\sum_{k=1}^{n}[y_k]_+}

平均准确性：

1. patch verification: 面片验证

该任务是用来评价两个面片是否是从相同的测量方法中生成的（classify whether two patches are extracted from the same measurement），也就是判断两个patch是否是匹配的。

具体来说，给定一个成对的patch pair的列表 $\mathcal{P} = ((\mathbf{x}_i, \mathbf{x}'_i, y_i), i=1, \ldots, N)$ ，这里面包含了正负样本， $\mathbf{x}_i, \mathbf{x}'_i \in \mathbb{R}^{t \times t \times c}$ 表示一个patch，而 $y_i=\pm 1$

根据这个列表，计算每个pair间的匹配度（confidence score） $s_i$ ，并根据该匹配度对该列表进行降序排列，得到新的列表，从中提取其label，按照上述准确性和召回率计算方法，计算 $AP（y_{\pi 1}, \ldots, y_{\pi N}）$ , 其中 $\pi$ 是排序后的编号，保证 $s_{\pi 1} \geq s_{\pi 1} \geq \ldots \geq s_{\pi N}$

这个和训练的时候直接使用的patch pair 很相似，HPatchs数据集总共产生了 $2 \times 10^5$ 个正样本和 $1 \times 10^6$ 个负样本

需要注意，这里使用匹配度进行排序，而没有对匹配度计算方法进行约束，这也就可以自定义匹配度计算方法，甚至有研究使用metric learning的方法，直接学出来。

文章中也说由于样本分布不平衡，因此没有使用ROC曲线，而且这种也和真实图像匹配任务不是很想，因此才有后面一种更加贴合图像匹配任务的评价任务

2. image matching：图像匹配

该任务是用来评价面片的描述子能够多大程度上确定图像间的匹配情况（identify the correspondences in two images）。

具体的，在这个任务中，使用一个图像面片的描述子和另一个图像面片的描述子进行匹配。

假设一个图像 $L_k$ 是包含N个Patch， $L_k = (\mathbf{x}_{ik}, i = 1, \ldots, N)$ ，那么给定一个图像对 $\mathcal{D}=(L_0, L_1)$ ，那么经过匹配后， $\mathbf{x}_{i0}$ 就和 $\mathbf{x}_{i1}$ 是相匹配的面片。我们可以使用该图像对来对算法进行评价

具体的，给定参考图像中 $L_0$ 的一个patch $\mathbf{x}_{i0}$ , 其在目标图像 $L_1$ 中的匹配patch是 $\mathbf{x}_{\sigma_i0}$ ，匹配的可信度是 $s_i \in \mathbb{R}$ , 那么其label可以使用如下方式给定

y_i = 2[\sigma_i \overset{?}= i] - 1

也就是说正确匹配为+1，错误匹配为-1。进而可以对这个序列使用上述方式计算AP，对于整个数据集来说，总体指标是所以匹配对 $D$ 的平均准确度的均值。

这个评价标准就和图像匹配过程非常类似，参考图像中的每个特征点在目标图像中找到对应的匹配点，并最终计算相应的匹配度。

3. patch retrieval：面片检索

该任务时给定一个待检索面片序列以及一个面片池（patch pool），测试使用面片描述子能够多大程度上从面片池中获得待检索面片，需要注意的是，这个面片池可能从多张图像中生成，存在许多干扰项。

给定一个集合 $\mathcal{P} = (\mathbf{x}_0, (\mathbf{x}_i, y_i), i = 1, \ldots, N)$ , 其中 $\mathbf{x}_{0}$ 是从参考图像 $L_0$ 得到的，其余patch则是从相同场景的其他图像 $L_k, k = 1, \ldots, K$ 以及很多其他干扰图像中得到的， $\mathbf{x}_{1}$ 是正确匹配则 $y_i = +1$ ，否则等于-1。由于匹配图像有K景，因此最多有K个正样本，其余都是负样本，因此如果检索到的patch是在匹配图像中，但并不是匹配patch，则将忽略该结果，即 $y_i = 0$ 。

最后对每个 $\mathbf{x}_i$ 赋予一个置信度，则可以使用上述方法计算AP。

HPatch总共给出了 $1 \times 10^4$ 个patch，每个patch有5个正样本，以及 $2 \times 10^4$ 个干扰样本。

HPatches中三种评价指标详解

0. 准确性和召回率

1. patch verification: 面片验证

2. image matching：图像匹配

3. patch retrieval：面片检索

4. 最终结果