一起养成写作习惯！这是我参与「掘金日新计划 · 4 月更文挑战」的第10天，点击查看活动详情。

The benchmarking datasets are the basis of fair comparison and validation of computational methods.

什么是 benchmark datasets

benchmark datasets（基准数据库）是公平比较和验证计算方法的基础，基准数据集用于基准测试，是一个算法模型性能的衡量基准，很多特定机器学习问题都需要基准测试数据。

算法在数据集上跑可以理解为跑分，基准数据集就是作为一个评价标准的数据集，大家很多都在上面跑，用来评价一个算法模型的好坏。否则大家都在不同的数据集上跑，如何评价谁的算法好，谁的算法坏呢？

benchmark datasets 和 baseline 有什么区别

benchmark 是一个过程，baseline 是 benckmark 这个过程中的一次实例。

baseline 可以理解为最低的标准，即低于这个标准肯定是不行的；而 benchmark 可以理解为”某一刻度”，这个刻度可高可低，所以 benchmark 本身没有好坏，单纯用来进行比较。

baseline 是客观的，原始数据要扣除 baseline 才是最终的 value。而 benchmark 相对主观，是一个标准值，视依据而定，主要用来平行比较。

高中我们就学过，科学实验的一个重要原则在于控制变量，benchmark 和 baseline 其实都是控制变量而已。

我的理解，一般用 benchmark data 做实验，测试 A B C D 四个模型，然后以结果最差的一个模型，假设是 C，作为 baseline，看看其他模型相对 C 提高了多少。

baseline 的目的是比较提出算法的性能或者用以比较彰显提出算法的优势。