一些机器学习常用术语

69 阅读2分钟
  • data set

    数据集,通常指一组用于训练的数据。

  • instance\sample

    示例、样本,用于描述是数据集中的单条数据。

  • attribute\feature

    反映示例(样本)在某一个方面的表现或一个性质。

  • attribute value

    属性的值。

  • attribute space\sample space\input space

    属性空间、样本空间、输入空间,多个不同的属性共同构成的空间,如两个特征构成平面空间。

  • feature vector

    特征向量,一个样本在特征空间中的表示。

  • dimensionality

    维数,即特征数量或特征向量的维度。

  • learning\training

    学习、训练,即从数据中得到模型的过程。

  • training data

    训练数据,是data set的子集,供训练用。

  • training sample

    训练样本,训练数据中的单条数据。

  • training set

    训练集,一份训练集可以拆成多份训练数据训练多轮,因此data set > training set > training data。

  • hypothesis

    假设,训练完成的模型学到的数据规律称为假设。

  • ground-truth

    真相,指数据自身真实的数据规律,学习和训练的过程就是让假设和真相无限接近的过程。

  • learner

    学习器,学习算法、参数以及给定数据三者共同确定的一个训练过程的实例。

  • prediction

    预测,模型根据自身的假设为某条数据假设一个结果。

  • label

    标记,样本对应的真相或模型预测的结果。

  • example

    样例,example = training sample + label,即标记好真相的训练样本。

  • label space

    标记空间,即所有标记的全集,模型预测的结果一定是标记空间中的一个点。

  • classification

    分类任务,指模型预测的label space是离散值,如A,B,C

  • regression

    回归任务,指模型越策的label space是连续值,如 y = x。

  • binary classification\positive class\negative class

    二分类任务\正类\反类,模型预测结果只有两个离散值构成,分别被称为正类和反类。

  • multi-class classification

    多分类任务,离散值有多个的分类任务。

  • testing

    测试,使用训练完成的模型得到的假设,对测试数据进行预测的过程。

  • testing sample

    测试样本

  • clustering

    聚类任务,指标记空间由模型预测得到,事前不用指定标记空间。

  • supervised learning\unsupervised learning

    监督学习和非监督学习,根据训练数据是否有标记划分,分类和回归任务是监督学习的典型代表,聚类是非监督学习的典型代表。

  • generalization

    泛化,指的是模型在整个数据集上的表现。

  • distribution

    分布,整个数据集中的样本服从一个未知的分布。

  • independent and identically

    独立同分布,采集的单个样本都是独立的存在于这个分布中,因此训练样本越多,越接近训练样本的分布;但训练样本的分布并不一定是最合理的,因此样本的选择至关重要。