-
data set
数据集,通常指一组用于训练的数据。
-
instance\sample
示例、样本,用于描述是数据集中的单条数据。
-
attribute\feature
反映示例(样本)在某一个方面的表现或一个性质。
-
attribute value
属性的值。
-
attribute space\sample space\input space
属性空间、样本空间、输入空间,多个不同的属性共同构成的空间,如两个特征构成平面空间。
-
feature vector
特征向量,一个样本在特征空间中的表示。
-
dimensionality
维数,即特征数量或特征向量的维度。
-
learning\training
学习、训练,即从数据中得到模型的过程。
-
training data
训练数据,是data set的子集,供训练用。
-
training sample
训练样本,训练数据中的单条数据。
-
training set
训练集,一份训练集可以拆成多份训练数据训练多轮,因此data set > training set > training data。
-
hypothesis
假设,训练完成的模型学到的数据规律称为假设。
-
ground-truth
真相,指数据自身真实的数据规律,学习和训练的过程就是让假设和真相无限接近的过程。
-
learner
学习器,学习算法、参数以及给定数据三者共同确定的一个训练过程的实例。
-
prediction
预测,模型根据自身的假设为某条数据假设一个结果。
-
label
标记,样本对应的真相或模型预测的结果。
-
example
样例,example = training sample + label,即标记好真相的训练样本。
-
label space
标记空间,即所有标记的全集,模型预测的结果一定是标记空间中的一个点。
-
classification
分类任务,指模型预测的label space是离散值,如A,B,C
-
regression
回归任务,指模型越策的label space是连续值,如 y = x。
-
binary classification\positive class\negative class
二分类任务\正类\反类,模型预测结果只有两个离散值构成,分别被称为正类和反类。
-
multi-class classification
多分类任务,离散值有多个的分类任务。
-
testing
测试,使用训练完成的模型得到的假设,对测试数据进行预测的过程。
-
testing sample
测试样本
-
clustering
聚类任务,指标记空间由模型预测得到,事前不用指定标记空间。
-
supervised learning\unsupervised learning
监督学习和非监督学习,根据训练数据是否有标记划分,分类和回归任务是监督学习的典型代表,聚类是非监督学习的典型代表。
-
generalization
泛化,指的是模型在整个数据集上的表现。
-
distribution
分布,整个数据集中的样本服从一个未知的分布。
-
independent and identically
独立同分布,采集的单个样本都是独立的存在于这个分布中,因此训练样本越多,越接近训练样本的分布;但训练样本的分布并不一定是最合理的,因此样本的选择至关重要。