一、定义
1 Arthur Samuel对机器学习的定义
机器学习是这样的领域,它赋予计算机学习的能力,不是通过显著式的编程获得的。
1.1 非显著式编程
让计算机自己总结规律的编程方法称为非显著式编程
2 Tom Mitshell做出的定义
一个计算机程序被称为可以学习,是指他能够针对某个任务T和某个性能指标P,从经验E中学习。
这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。
二、机器学习的分类
1 分类
机器学习算法总体可以分为监督学习和强化学习两类。
2 监督学习
传统的监督学习(Traditional Supervised Learning)
非监督学习(Unsupervised Learning)
半监督学习(Semi-supervised Learning)
2.1 传统的监督学习
--支持向量机(Support Vector Machine)
--人工神经网络(Neural Networks)
--深度神经网络(Deep Neural Networks)
2.2 非监督学习
假设同一类的训练数据在空间中距离更近 --> 样本的空间信息 --> 设计算法将它们聚集为两类 --> 无监督学习
-- 聚类(Clustering)
-- EM算法(Expectation-Maximization algorithm)
-- 主成分分析(Principle Component Analysis)
2.3 半监督学习
利用少量的标注数据和大量的未标注数据一起 --> 更好的机器学习算法
2.4 监督学习的另一种分类
可以将监督学习分为分类(Classification)和回归(Regression)两种。
-- 分类(Classification):标签是离散的值
-- 回归(Regression):标签是连续的值
三、没有免费午餐定理
任何一个预测函数,如果在一些训练样本上表现好,那么必然在另一些训练样本上表现不好,
如果不对数据在特征空间的先验分布有一定的假设,那么表现好与表现不好的情况一样多。