机器学习基本概念机器学习是一种从数据中生成规则，发现模型，来帮助我们预测，判断，分组和解决问题的技术。机器学习与传统程

机器学习是一种从数据中生成规则，发现模型，来帮助我们预测，判断，分组和解决问题的技术。机器学习与传统程序的区别

比如: 钻石的大小(自变量 $X_1$ ), 重量(自变量 $X_2$ ), 颜色( 自变量 $X _3$ )，密度(自变量 $X_4$ ) 和价格(因变量 $Y$ ) 的关系。

在机器学习中，自变量 $X_1$ ，自变量 $X_2$ ，自变量 $X _3$ ，自变量 $X_4$ $..$ 这些自变量叫做特征(feature)。

因变量( $Y$ ) 叫做标签(label)。

一批历史特征和标签的集合就是机器学习的数据集。在已有的数据集上，通过反复计算，选择最贴切的函数其描述数据集中自变量 $X_1$ , $X_2$ , $X_3$ ,... $X_n$ 与因变量的因果关系。这个过程就是机器学习的训练，也叫做拟合。

这里，我们可以理解为: 传统的程序是程序员定义函数，而机器学习中是机器训练出对应的函数。

如用来训练的数据集叫做训练集(training dataset)。机器通过训练找到一个函数，我们还需要验证(validate)和评估。这个过程就是在验证这个函数是否达到推广的要求，能否被泛化。如果通过不了，那我们就需要继续寻找新的模型，直到模型达到评估，能够泛化为止。

机器学习的分类

这里的分类标准是是否有标签

根据标签的特点，监督学习可以分为回归问题和分类问题

回归问题可以看作是标签的结果是连续性的数值:(比如房价，股市等)、分类问题的标签是离散值: 比如考试及格或者不及格

半监督学习: 就是数据集中，有一部分有标签，有一部分没有标签

无监督学习: 适用于为没有标签的数据建模，比如，用户聚类，数据降维等场景。

有很多问题是传统的机器学习很难解决的，比如图片识别等，这种场景就需要使用深度学习了。

特征: 就是一个函数(模型)的变量标签: 就是一个函数(模型)的因变量特征集: 就是特征的集合标签集: 就是标签的集合

监督学习: 所有的数据集都给定了标签无监督学习: 所有的数据集都没有标签半监督学习: 给定的数据集合中，有些有标签，有些没有标签

监督学习主要是用于解决: 回归和分类问题(重点) 无监督学习主要用于解决: 聚类和降维问题

监督学习: 分类算法，逻辑回归，决策树分类，SVM 分类，贝叶斯分类，随机森林(集成学习)，XGBoost, KNN

无监督学习: 聚类，降维

半监督学习:

强化学习: