定义:
- 机器学习是一门从数据中研究算法的科学学科。
- 机器学习直白来讲,是根据已有的数据,进行算法选择,并基于算法和数据 构建模型,最终对未来进行预测。
- 备注:机器学习就是一个模拟人决策过程的一种程序结构。
拟合:
- 构建的算法模型符合给定数据的特征
- 鲁棒性:也就是健壮性、稳健性、强健性、系统的健壮性;当存在异常数据的时候,算法也会拟合数据
- 过拟合:
- 表现:训练集效果好,测试集效果差。
- 原因:算法太符合样本数据的特征,学到规律的同时,学到了偶然性和噪声。
- 解决办法:数据清洗,增加数据量,减少小模型的复杂程度。
- 欠拟合:算法不太符合样本的数据特征。
- 表现:训练集效果差,测试集效果差
- 原因:模型太简单了,没有学到事物的特征
- 解决方法:增加模型复杂度
机器学习、人工智能和深度学习的关系
机器学习分类 1
- 有监督学习
有标签
- 无监督学习
无标签
- 半监督学习
一半有一半没有,用有标签的数据集合,标注没有标签的数据集合。
机器学习分类 2
- 判别式模型:是否判断:支付人脸识别
- 生成式模型:没有标准答案:搜狗输入法第一个默认词
机器学习分类 3
分类
• 通过分类模型,将样本数据集中的样本映射到某个给定的类别中(在模型构建之前,类别信息已经确定了。
聚类
• 通过聚类模型,将样本数据集中的样本分为几个类别,属于同一类别的样本相似性比较大
回归
• 反映了样本数据集中样本的属性值的特性,通过函数表达样本映射的关系来发现属性值之间的依赖关系
关联规则
• 获取隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现频率。