机器学习概述

人工智能起源

图灵测试

达特茅斯会议

机器学习是人工智能的一个实现途径，深度学习是机器学习的一个方法发展而来（神经网络）。

人工智能必备三要素

数据
算法
计算力

什么是机器学习

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。

机器学习流程

数据获取
数据基本处理
特征工程
机器学习（模型训练）
模型评估

数据集介绍

一行数据就是一个样本。

一列数据就是一个特征

有些数据有目标值（标签值），有些数据没有目标值。

特征值+目标值（连续或者离散）、特征值

数据分割：

训练数据，用于训练、构件模型：70%、80%、75%
测试数据，用于建延模型：30%、20%、25%

数据基本处理：

对数据进行缺失值、去除异常值。

特征工程

特诊工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。即把数据转换为机器更容易识别的数据。

==数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。==

包含内容：

特征提取
特征预处理：通过一些转换函数将特征数据转换为更加适合算法模型的特征数据过程。
特征降维：在某些限定条件下，降低随机变量个数，得到一组“不相关”主变量的过程。

机器学习

选择合适的算法对模型进行训练

模型评估

对训练好的模型进行评估

机器学习算法分类

监督学习
无监督学习
半监督学习
强化学习

监督学习

定义：输入数据是由输入特征值和目标值组成。

函数输出可以是连续值（==回归==），也可是有限离散值（==分类==）。

分类：k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

回归：线性回归、岭回归

无监督学习

定义：输入数据是由输入特征值组成，即有特征无标签。

输入数据没有被标记，也没有确定的结果，样本数据类别未知，需要根据样本间的相似性对样本集进行分类（==聚类==），试图使类内差距最小化，类间差距最大化。

聚类：k-means、降维

半监督学习

训练集同时含有标记样本数据和未标记样本数据。

强化学习

自动决策问题，并且可以做连续决策。

动态过程，上一步数据的输出是下一步数据的输入。

四要素：agent、action、environment、reward

算法：马尔科夫链、动态规划

模型评估

分类模型评估

准确率：

精确率：

召回率：

F1-score

AUC指标

回归模型评估

均方根误差（RMSE）

相对平方误差（RSE）

平均绝对误差（MAE）

相对绝对误差（RAE）

决定系数（R^2^）

拟合

欠拟合、过拟合

jupyter notebook

常用编辑工具，比较方便。安装Anaconda自带。启动：命令行输入

jupyter notebook

shift+enter 执行本单元代码，并跳转到下一单源

ctrl+enter 执行本单元代码，留在本单元