机器学习的基础名词解释数据集：一组记录的集合称为一个“数据集”，其中每条记录是关于一个事件或对象的描述，称为“样本”。

机器学习的基础名词解释

数据集：一组记录的集合称为一个“数据集”，其中每条记录是关于一个事件或对象的描述，称为“样本”。
反映对象在某方面的性质的事项，称为“属性”或“特征”；属性上的取值，例如“青绿”“乌黑”，称为 “属性值” ；
由属性张成的空间称为“属性空间”或“样本空间”或“输入空间”，例如我们把“长”“宽”“高”作为三个坐标轴，每个样本都可在这个空间中找到自己的坐标位置。由于空间中的每个点都对应一个坐标向量，因此我们也把一个样本称为一个“特征向量”。

模型

它是机器学习中的核心概念。向它输入数据，它就会帮你输出预测结果。整个机器学习的过程都将围绕模型展开，训练出一个最优质的模型，它可以尽量精准的输出预测结果，这就是机器学习的目标。

数据集

数据集，从字面意思很容易理解，它表示一个承载数据的集合，如果说“模型”是“魔法盒”的话，那么数据集就是负责给它充能的“能量电池”，简单地说，如果缺少了数据集，那么模型就没有存在的意义了。数据集可划分为“训练集”和“测试集”，它们分别在机器学习的“训练阶段”和“预测输出阶段”起着重要的作用。如下：

训练集&假设

从数据中学得的模型，称为“学习”或“训练”。这个过程通过执行某个学习算法完成，训练过程中使用的数据称为“训练数据”，其中每一个样本称为“训练样本”，由“训练样本”组成的集合称为“训练集”。学习模型对应了关于数据的某种潜在的规律，因此亦称“假设”，假设可以理解成“模型”；这种潜在的规律自身，则称为“真相”。学习的过程就是为了找出或逼近真相。

测试集

在获得“训练模型”后，我们还需要知道用该模型来预测其他情况的结果的效果好不好，所以需要引入“测试集”，如果该模型也能够很好的预测出“测试集”的结果，那么我们可以认为“训练模型”非常接近“真相”。

标记信息

例如，其中一个样本为“（（长=100cm；宽=100cm；高=100cm），是正方体）”，这里关于样本结果的信息，例如“正方体”，称为“标记”；拥有标记信息的示例，则称为“样例”。注意：分类和回归问题需要使用带“标记”的数据，聚类使用的数据集一般不拥有标记信息。

分类&回归

若我们欲预测的结果是离散值（即标记是离散的），例如“是正方体”“不是正方体”，此类学习任务称为“分类”；
若欲预测的是连续值（即标记是连续的），例如水果的成熟度0.95，0.37.此类学习任务称为“回归”，回归这个词的意思是，我们在推测出的这一系列连续值属性。

聚类

我们还可以对样本做“聚类”，相关算法将自动将训练集中的样本分成若干组，每组称为一个“簇”。这些自动形成的簇可能对应一些潜在的划分，比如“红色正方体”“绿色正方体”。需注意的是，在聚类学习中，像“红色正方体”“绿色正方体”这些概念我们事先是不知道的，“簇”是计算机自动识别数据进行的划分，而且学习过程中使用的训练集样本不拥有标记信息。

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“监督学习”和“无监督学习”，分类和回归是前者的代表，而聚类是后者的代表。

监督学习

监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中，我们给了一系列房子的数据，我们给定数据集中每个样本的正确价格，即它们实际的售价然后运用学习算法，算出更多的正确答案。用术语来讲，这叫做回归问题。我们试着推测出一个连续值的结果，即房子的价格。

下面是预测房价的例子：

已知你收集了一些房价的数据。你把这些数据画出来，看起来是这个样子：横轴表示房子的面积，单位是平方英尺，纵轴表示房价，单位是千美元。那基于这组数据，假如你有一个朋友，他有一套 750 平方英尺房子，现在他希望把房子卖掉，他想知道这房子能卖多少钱。

那么关于这个问题，机器学习算法将会怎么计算呢？

我们可以在这组数据中画一条直线，或者换句话说，拟合一条直线，根据这条线我们可以推测出，这套房子可能卖$150,000，

当然这不是唯一的算法。可能还有更好的，比如我们不用直线拟合这些数据，用二次方程去拟合可能效果会更好

根据二次方程的曲线，我们可以从这个点推测出，这套房子能卖接近$200,000。（如何选择学习算法，如何决定用直线还是二次方程来拟合。两个方案中有一个能让你朋友的房子出售得更合理。这些都是学习算法里面很好的例子。）以上就是监督学习的例子。

上面是一个关于回归的房价预测，下面再举一个关于分类问题的监督学习例子：

无监督学习

在无监督学习中，我们已知的数据。看上去有点不一样，不同于监督学习的数据的样子，即无监督学习中没有任何的标签或者是有相同的标签。所以我们已知数据集，却不知如何处理，也未告知每个数据点是什么。别的都不知道，就是一个数据集。你能从数据中找到某种结构吗？

针对数据集，无监督学习就能判断出数据有两个不同的聚集簇。

这是一个，那是另一个，二者不同。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。事实证明，它能被用在很多地方。

聚类应用的一个例子就是在谷歌新闻中。如果你以前从来没见过它，你可以到这个 URL 网址 news.google.com 去看看。谷歌新闻每天都在收集非常多的新闻内容。 它再将这些新闻分组，将有关联的新闻组合到一起（分成不同的簇）。所以，这些新闻事件全是同一主题的显示到一起。

聚类只是无监督学习中的一种。