计算机要做的是让近似的函数最大程度地拟合数据,进而使得误差最小化。
机器学习的方法:最小化误差函数(经验风险/结构风险)。
模型参数学习的思路:先初始化参数k和b,然后把数据点(x,y)的横坐标x代入一次线性函数得到预测值f(x),根据预测值f(x)与真实值y的误差去调整参数,直到整体误差足够小时,停止学习。
机器学习本质上是数据驱动下的学习。
人工智能包含了机器学习,机器学习包含了深度学习。
深度学习是机器学习现在比较火的一个方向,其本身是神经网络算法的衍生。
1. 监督与无监督的概念
机器学习主要包括:监督学习、无监督学习和强化学习。
什么是监督学习?它和无监督学习的区别是什么?
监督学习是指从标注数据中学习预测模型的机器学习问题。相反的,无监督学习是指从无标注数据中学习预测模型的机器学习问题。 由此可知:监督学习和无监督学习的区别在于数据是否有标注。
2. 样本、特征、标记
表格中的每一行都代表着一条样本数据;表格中的第一列x在机器学习中的术语叫特征,第二列y在机器学习中的术语叫做标记(标注)。
3. 分类与回归
根据预测y值类型的不同,监督学习主要有两个方面的应用:分类问题和回归问题。
分类问题中预测的y值是离散值,一般取值的个数是有限的,比如性别、职业、省份等;回归问题中预测的y值是连续值,一般取值的个数是无限的,比如身高、体重、收入等。
不仅label有连续和离散之分,特征x按照取值个数是否有限也会有连续型特征和离散型特征的区别。
4. 训练集与测试集
我们需要把整个数据集切分成训练集和测试集两部分,训练集用于模型的训练,测试集用于模型的测试。
5. 数据拟合与模型泛化
模型在未知数据上的预测效果越好,说明它的泛化能力越强。如果一味地拟合训练数据,就会导致模型过拟合。
过拟合最明显的表现就是模型在训练数据上的预测效果很好,但是在测试数据上的预测效果很差,这其实也是模型泛化能力差的表现。
过拟合的反面是欠拟合,也就是模型对训练数据的拟合程度不够,导致在训练数据上的误差较大,这种情况下模型在测试数据上的表现一般也不好。
欠拟合时,模型没有学习到数据的一般规律,曲线较简单;过拟合则是拟合每一个数据点,模型曲线较为复杂。好的拟合曲线是可以反映大部分数据点的规律,有一定的泛化能力。
6. 聚类和降维
无监督学习的应用主要有两个方面:样本聚类和特征降维。在数据上的表现形式如下:
样本聚类是数据纵向的压缩;而特征降维是数据横向的压缩。
分类问题和聚类问题的本质区别在于:分类属于监督学习的范畴,而聚类属于无监督学习的范畴。所以判断的关键在于数据集是否有标注信息。
7. 模型参数与超参数
模型参数是可学习的,比如一次线性函数的斜率和截距。
模型的超参数是人为设定的,比如迭代次数。