机器学习基本概念

315 阅读3分钟

机器学习是一种从数据中生成规则,发现模型,来帮助我们预测,判断,分组和解决问题的技术。 机器学习与传统程序的区别

image.png

比如: 钻石的大小(自变量 X1X_1), 重量(自变量X2 X_2), 颜色( 自变量X3X _3), 密度(自变量 X4X_4) 和价格(因变量YY) 的关系。

在机器学习中, 自变量 X1X_1,自变量X2 X_2,自变量X3X _3,自变量 X4X_4 .... 这些自变量叫做特征(feature)。

因变量(YY) 叫做标签(label)。

一批历史特征和标签的集合就是机器学习的数据集。 在已有的数据集上,通过反复计算选择最贴切的函数其描述数据集中自变量 X1X_1,X2X_2,X3X_3,...XnX_n 与因变量的因果关系。这个过程就是机器学习的训练,也叫做拟合。

这里, 我们可以理解为: 传统的程序是程序员定义函数, 而机器学习中是机器训练出对应的函数

如用来训练的数据集叫做训练集(training dataset)。 机器通过训练找到一个函数,我们还需要验证(validate)和评估。 这个过程就是在验证这个函数是否达到推广的要求,能否被泛化。如果通过不了, 那我们就需要继续寻找新的模型, 直到模型达到评估,能够泛化为止。

机器学习的分类

这里的分类标准是是否有标签

  1. 监督学习: 训练数据集全部有标签(就是已经给定了结果集了)
  2. 无监督学习:在训练数据集中,有的数据有标签,有的数据没有标签
  3. 半监督学习:训练数据集没有标签,叫做无监督学习

监督学习的分类

根据标签的特点, 监督学习可以分为回归问题和分类问题

回归问题可以看作是标签的结果是连续性的数值:(比如房价,股市 等)、 分类问题的标签是离散值: 比如考试及格或者不及格

image.png

半监督学习: 就是数据集中, 有一部分有标签, 有一部分没有标签

无监督学习: 适用于为没有标签的数据建模,比如, 用户聚类,数据降维等场景。

有很多问题是传统的机器学习很难解决的, 比如 图片识别等, 这种场景就需要使用 深度学习了。

总结

特征: 就是一个函数(模型)的变量 标签: 就是一个函数(模型)的因变量 特征集: 就是特征的集合 标签集: 就是标签的集合

监督学习: 所有的数据集都给定了标签 无监督学习: 所有的数据集都没有标签 半监督学习: 给定的数据集合中, 有些有标签,有些没有标签

监督学习主要是用于解决: 回归和分类问题(重点) 无监督学习主要用于解决: 聚类和降维问题

监督学习: 分类算法,逻辑回归,决策树分类,SVM 分类,贝叶斯分类,随机森林(集成学习),XGBoost, KNN

无监督学习: 聚类, 降维

半监督学习:

强化学习: