机器学习——概述(分类)

138 阅读2分钟

定义:

  • 机器学习是一门从数据中研究算法的科学学科。
  • 机器学习直白来讲,是根据已有的数据,进行算法选择,并基于算法和数据 构建模型,最终对未来进行预测。
  • 备注:机器学习就是一个模拟人决策过程的一种程序结构。

image.png

拟合:

  • 构建的算法模型符合给定数据的特征
  • 鲁棒性:也就是健壮性、稳健性、强健性、系统的健壮性;当存在异常数据的时候,算法也会拟合数据
  • 过拟合:
    • 表现:训练集效果好,测试集效果差。
    • 原因:算法太符合样本数据的特征,学到规律的同时,学到了偶然性和噪声。
    • 解决办法:数据清洗,增加数据量,减少小模型的复杂程度。
  • 欠拟合:算法不太符合样本的数据特征。
    • 表现:训练集效果差,测试集效果差
    • 原因:模型太简单了,没有学到事物的特征
    • 解决方法:增加模型复杂度

机器学习、人工智能和深度学习的关系

image.png

机器学习分类 1

  • 有监督学习

有标签

  • 无监督学习

无标签

  • 半监督学习

一半有一半没有,用有标签的数据集合,标注没有标签的数据集合。

机器学习分类 2

  1. 判别式模型:是否判断:支付人脸识别
  2. 生成式模型:没有标准答案:搜狗输入法第一个默认词

机器学习分类 3

分类

• 通过分类模型,将样本数据集中的样本映射到某个给定的类别中(在模型构建之前,类别信息已经确定了。

聚类

• 通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大

回归

• 反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系

关联规则

• 获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率。