机器学习的基本概念

232 阅读3分钟

计算机要做的是让近似的函数最大程度地拟合数据,进而使得误差最小化。

机器学习的方法:最小化误差函数(经验风险/结构风险)。

模型参数学习的思路:先初始化参数k和b,然后把数据点(x,y)的横坐标x代入一次线性函数得到预测值f(x),根据预测值f(x)与真实值y的误差去调整参数,直到整体误差足够小时,停止学习。

机器学习本质上是数据驱动下的学习。

人工智能包含了机器学习,机器学习包含了深度学习。

深度学习是机器学习现在比较火的一个方向,其本身是神经网络算法的衍生。

1. 监督与无监督的概念

机器学习主要包括:监督学习、无监督学习和强化学习。

什么是监督学习?它和无监督学习的区别是什么?

监督学习是指从标注数据中学习预测模型的机器学习问题。相反的,无监督学习是指从无标注数据中学习预测模型的机器学习问题。 由此可知:监督学习和无监督学习的区别在于数据是否有标注。

2. 样本、特征、标记

image.png

表格中的每一行都代表着一条样本数据;表格中的第一列x在机器学习中的术语叫特征,第二列y在机器学习中的术语叫做标记(标注)。

3. 分类与回归

根据预测y值类型的不同,监督学习主要有两个方面的应用:分类问题和回归问题。

分类问题中预测的y值是离散值,一般取值的个数是有限的,比如性别、职业、省份等;回归问题中预测的y值是连续值,一般取值的个数是无限的,比如身高、体重、收入等。

不仅label有连续和离散之分,特征x按照取值个数是否有限也会有连续型特征和离散型特征的区别。

4. 训练集与测试集

我们需要把整个数据集切分成训练集和测试集两部分,训练集用于模型的训练,测试集用于模型的测试。

5. 数据拟合与模型泛化

模型在未知数据上的预测效果越好,说明它的泛化能力越强。如果一味地拟合训练数据,就会导致模型过拟合。

过拟合最明显的表现就是模型在训练数据上的预测效果很好,但是在测试数据上的预测效果很差,这其实也是模型泛化能力差的表现。

过拟合的反面是欠拟合,也就是模型对训练数据的拟合程度不够,导致在训练数据上的误差较大,这种情况下模型在测试数据上的表现一般也不好。

欠拟合时,模型没有学习到数据的一般规律,曲线较简单;过拟合则是拟合每一个数据点,模型曲线较为复杂。好的拟合曲线是可以反映大部分数据点的规律,有一定的泛化能力。

6. 聚类和降维

无监督学习的应用主要有两个方面:样本聚类和特征降维。在数据上的表现形式如下:

image.png

样本聚类是数据纵向的压缩;而特征降维是数据横向的压缩。

分类问题和聚类问题的本质区别在于:分类属于监督学习的范畴,而聚类属于无监督学习的范畴。所以判断的关键在于数据集是否有标注信息。

7. 模型参数与超参数

模型参数是可学习的,比如一次线性函数的斜率和截距。

模型的超参数是人为设定的,比如迭代次数。