机器学习是一种从数据中生成规则,发现模型,来帮助我们预测,判断,分组和解决问题的技术。 机器学习与传统程序的区别
比如: 钻石的大小(自变量 ), 重量(自变量), 颜色( 自变量), 密度(自变量 ) 和价格(因变量) 的关系。
在机器学习中, 自变量 ,自变量,自变量,自变量 这些自变量叫做特征(feature)。
因变量() 叫做标签(label)。
一批历史特征和标签的集合就是机器学习的数据集。 在已有的数据集上,通过反复计算,选择最贴切的函数其描述数据集中自变量 ,,,... 与因变量的因果关系。这个过程就是机器学习的训练,也叫做拟合。
这里, 我们可以理解为: 传统的程序是程序员定义函数, 而机器学习中是机器训练出对应的函数。
如用来训练的数据集叫做训练集(training dataset)。 机器通过训练找到一个函数,我们还需要验证(validate)和评估。 这个过程就是在验证这个函数是否达到推广的要求,能否被泛化。如果通过不了, 那我们就需要继续寻找新的模型, 直到模型达到评估,能够泛化为止。
机器学习的分类
这里的分类标准是是否有标签
- 监督学习: 训练数据集全部有标签(就是已经给定了结果集了)
- 无监督学习:在训练数据集中,有的数据有标签,有的数据没有标签
- 半监督学习:训练数据集没有标签,叫做无监督学习
监督学习的分类
根据标签的特点, 监督学习可以分为回归问题和分类问题
回归问题可以看作是标签的结果是连续性的数值:(比如房价,股市 等)、 分类问题的标签是离散值: 比如考试及格或者不及格
半监督学习: 就是数据集中, 有一部分有标签, 有一部分没有标签
无监督学习: 适用于为没有标签的数据建模,比如, 用户聚类,数据降维等场景。
有很多问题是传统的机器学习很难解决的, 比如 图片识别等, 这种场景就需要使用 深度学习了。
总结
特征: 就是一个函数(模型)的变量 标签: 就是一个函数(模型)的因变量 特征集: 就是特征的集合 标签集: 就是标签的集合
监督学习: 所有的数据集都给定了标签 无监督学习: 所有的数据集都没有标签 半监督学习: 给定的数据集合中, 有些有标签,有些没有标签
监督学习主要是用于解决: 回归和分类问题(重点) 无监督学习主要用于解决: 聚类和降维问题
监督学习: 分类算法,逻辑回归,决策树分类,SVM 分类,贝叶斯分类,随机森林(集成学习),XGBoost, KNN
无监督学习: 聚类, 降维
半监督学习:
强化学习: