考试-机器学习复习/简单总结西瓜书(1)

342 阅读4分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第十三天,点击查看活动详情

总结:此文为12月更文计划第十三天第十九篇。

马上要进行机器学习的期末考试了,这一学期学习的教材是西瓜书,我将在三天之内对西瓜书进行一个小小的复习与总结,顺便开一个专栏,

就称为<复习机器学习(西瓜书)>,今天是复习的第一天,第一篇。

第一篇我首先要介绍一下总的大纲与要复习的内容,西瓜书这本书内容很多,也很全面,只靠老师一个学习的讲课也没讲完。一共有16章节,我们上课内容只讲到了第10章左右,甚至第十章也没讲完,第九章也讲了一个大概(聚类)。

我主要结合考试大纲与我自己做的笔记,以及一些辅助学习的教学视频,来做一个小小的总结。一定不是很全的,但是足可以应付一些没有上机考试的期末概念题了。

绪论

机器学习:

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。

离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所 有这些数据全部都是整数,而且不能再细分,也不能进一步提高他 们的精确度。

连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续 的,如,长度、时间、质量值等,这类数据通常是非整数,含有小数 部分。

机器学习 分为三类:监督学习、无监督学习、强化学习。

监督学习

定义

· 输入数据是由输入特征值和目标值所组成。

· 函数的输出可以是一个连续的值(称为回归), 或是输出是有限个离散值(称作分类)。

用已知某种或某些特征的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知的样本的方法.是从标签化训练集数据集中推断出模型的机器学习任务.

无监督学习*

定义

· 输入数据是由输入特征值组成,没有目标值 

o 输入数据没有被标记,也没有确定的结果。样本数据类别未知;

o 需要根据样本间的相似性对样本集进行类别划分

半监督学习*

定义:训练集同时包含有标记样本数据和未标记样本数据。

用少量有标注的样本和大量未标注的样本进行训练分类

机器学习的一般过程:

1. 确定模型超参数,

2. 用训练集训练该模型,找到使损失函数最小的最优函数,

3. 在验证集上对最优函数的性能进行度量,

4. 选择在验证集上误差最小的模型,并合并训练集和验证集作为整体训练模型,找到最优函数,

数据集: 这组记录的集合称为一个"数据集" (data set) ,其中每条记录是关于一 个事件或对象(这里是一个西瓜)的描述,称为一个"示例" (instance) 或"样 本" (samp1e).

常用数据集数据的结构组成:

结构:特征值+目标值

· 监督学习:分类、回归

· 无监督学习:聚类

特征工程(补充)

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了模型对未知数据预测的准确性

特征工程的意义:

直接影响模型的预测结果

特征处理是什么 : 通过特定的统计方法(数学方法)将数据转换成算法要求的数据

数值型数据:标准缩放:

	1、归一化
            
         	2、标准化
            
	3、缺失值
            

类别型数据:one-hot编码

时间类型:时间的切分

归一化:特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间

绪论主要是以西瓜分类为例引出,多读几次例子也就明白了,这里不再赘述