机器学习算法分类与数据处理

0 阅读10分钟

思维导图

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

一、机器学习算法分类

机器学习的核心在于算法,而根据数据集是否有标签,我们可以将机器学习算法分为四大类。掌握这些分类,就像拥有了机器学习的地图,能让我们在面对不同问题时快速判断方向,而不是盲目选择模型。

机器学习本质上解决的是从数据中学习规律的问题,不同的数据形态决定了我们该用哪种学习方式。

1. 有监督学习

有监督学习是最常见、应用最成熟的一类算法,也是工业界落地最多的一种形式。

定义:输入数据由特征值目标值组成。简单来说,训练数据是带标签的,也就是每条数据都有标准答案。

换句话说,我们是在学习一个从输入输出的映射关系。

类比:就像学生在老师的指导下学习。老师提供题目(特征)和标准答案(标签),学生通过不断练习,学会看到题目就能写出正确答案。这种有答案参考的学习方式,就是有监督学习。 在这里插入图片描述 核心任务:

分类:目标值是离散的(不连续)。例如:垃圾邮件检测(是/否)、图像识别(猫/狗/车)。本质是将样本划分到不同类别。

回归:目标值是连续数值。例如:预测明天的气温、预测房价。本质是预测一个具体数值。

分类预测类别,回归预测数值。

2. 无监督学习

定义:输入数据没有标签。机器只拿到一堆数据,不知道它们代表什么,需要自己去发现数据内部的结构规律

类比:就像给小孩一堆积木,不告诉他怎么分类,他可能会根据颜色形状,自发地分成几堆。这种主动归纳,就是无监督学习的核心。 在这里插入图片描述 核心任务:

聚类:根据样本间的相似性,将样本划分为不同组。常见应用包括客户细分异常检测

降维:在保留主要信息的情况下减少特征数量,用于数据压缩或可视化分析。

一句话理解:无监督学习的核心是发现隐藏结构。

3. 半监督学习

背景:现实中数据很多,但人工标注成本很高。特别是在医学、语音识别等领域,标注往往需要专业人员参与。

定义:利用少量有标签数据和大量无标签数据进行训练。

它的核心思想是:用少量人工知识带动大量数据学习。

工作流程:

1. 先用少量有标签数据训练一个初始模型。
2. 用模型预测无标签数据,生成伪标签。
3. 将真实标签与伪标签数据结合,再次训练模型,不断优化。

优势:降低标注成本,同时充分利用海量数据。

在这里插入图片描述

4. 强化学习

定义:一个智能体环境中不断尝试,根据获得的奖励惩罚调整行为策略,目标是最大化累积奖励

强化学习强调试错机制长期收益

核心四要素:

智能体:做出决策的主体,如 AlphaGo、机器人 环境:交互场景,如 围棋棋盘、迷宫 行动:执行的动作,如 落子、移动 奖励:环境反馈,如 +1 分 或 -1 分 在这里插入图片描述 案例:小孩学走路、训练小狗、本质上都是通过奖励反馈调整行为

5. 算法分类总结

学习方式关键特征核心任务典型案例
有监督学习有标签 (输入+结果)分类、回归房价预测、人脸识别
无监督学习无标签 (只有输入)聚类、降维客户分群、数据压缩
半监督学习少量标签 + 大量无标签分类、回归网页分类、医学影像分析
强化学习动态交互、奖励机制决策控制自动驾驶、游戏AI

二、机器学习建模流程

做一个机器学习项目,就像做一道菜,需要有清晰步骤,否则很容易翻车。

标准流程七步走:

1.获取数据:没有数据就没有模型,数据是基础。 2. 数据基本处理:清洗脏数据,处理缺失值和异常值。

  1. 特征工程:把数据转换为模型可理解的形式,这是最关键的一步
  2. 模型训练:选择算法,让模型学习数据规律。
  3. 模型评估:使用测试集打分,判断模型效果。
  4. 结果预测:上线部署,对新数据进行预测。

在这里插入图片描述

核心主线可以理解为:数据 → 特征 → 模型 → 评估 → 应用

三、特征工程

行业里有一句非常经典的话:

“数据和特征决定上限,模型只是逼近上限。”

很多时候模型效果不好,不是算法不够复杂,而是特征不够好

1. 什么是特征工程?

特征工程是利用专业知识对数据进行加工处理,将原始数据转换为更有表达力的特征。

简单理解就是:把原材料加工成更容易被模型理解的形式。

好的特征往往比复杂模型更重要。

在这里插入图片描述

2. 特征提取

机器只认识数字,不认识图片、文本或声音。

定义:将原始数据转换为数值特征

例如:文本转向量,图片转像素矩阵。本质是一切数据都要数值化。

在这里插入图片描述

3. 特征预处理

痛点:量纲不统一

解决方法:通过归一化标准化将特征缩放到统一范围。

作用:让不同特征影响力更公平,加快模型收敛速度,提高训练稳定性

在这里插入图片描述

4. 特征降维

定义:在保留主要信息前提下减少特征维度

原因:特征过多会增加计算成本,可能引入噪声,容易造成过拟合

效果:数据更精简,训练更高效。

在这里插入图片描述

5. 特征选择

定义:筛选出最有价值的特征,删除无用或冗余特征。

区别

降维会生成新特征 特征选择不改变原始特征

核心目标:保留有效信息,剔除干扰因素。

在这里插入图片描述

6. 特征组合

定义:通过加减乘除等运算构造新特征。

案例:面积 = 长度 × 宽度

很多时候,组合特征比原始特征更有表达力

在这里插入图片描述

四、练习与解析

一、单选题

1. 下列关于人工智能(AI)、机器学习(ML)和深度学习(DL)关系的描述中,正确的是: A. ML 是 AI 的子集,DL 是 AI 的子集,但 ML 和 DL 没有交集。 B. AI 是 ML 的子集,ML 是 DL 的子集。 C. DL 是 ML 的子集,ML 是 AI 的子集。 D. AI、ML 和 DL 是三个完全独立的领域。

答案:C 解析: 这是一个典型的包含关系问题。 人工智能(AI)是最大的概念; 机器学习(ML)是实现 AI 的一种方法,属于 AI 的子集; 深度学习(DL)是 ML 中基于多层神经网络的一种方法,属于 ML 的子集。

2. 在房价预测任务中,我们要预测的目标值是房价(例如:300万、500万),这类任务属于机器学习中的哪一类? A. 分类 B. 回归 C. 聚类 D. 降维

答案:B 解析: 房价是一个连续数值,预测连续值的任务属于回归。 分类的目标是离散类别(如 是/否),而不是具体数值。

3. 下列哪种情况最适合使用无监督学习算法? A. 识别图片中的动物是猫还是狗(图片已标注好类别)。 B. 根据历史天气数据预测明天的气温。 C. 给定一批客户的消费记录,自动将客户划分为不同的群体,以便进行精准营销。 D. 训练一个下围棋的机器人。

答案:C 解析: A 属于分类(有监督); B 属于回归(有监督); D 属于强化学习; C 是典型的聚类任务,数据没有标签,需要自动发现结构,因此属于无监督学习

4. 在机器学习建模流程中,哪一步骤通常被认为是决定模型效果上限的关键? A. 模型训练 B. 数据清洗 C. 特征工程 D. 模型评估

答案:C 解析: “数据和特征决定上限,模型只是逼近上限。” 特征工程直接影响模型能否提取有效信息,因此是核心关键。

5. 关于特征提取的描述,下列哪项是正确的? A. 将多个特征相乘生成新特征。 B. 将非结构化数据(如文本、图像)转换为数值向量。 C. 删除对预测结果无用的特征。 D. 将不同量纲的特征缩放到同一范围。

答案:B 解析:A 是 特征组合;B 是 特征提取;C 是 特征选择;D 是 特征预处理

6. 为什么要进行特征预处理中的归一化或标准化? A. 为了增加特征的数量。 B. 为了将非数值数据转换为数值数据。 C. 为了消除不同特征之间量纲差异的影响,使模型更易收敛。 D. 为了防止过拟合。

答案:C 解析:如果一个特征范围是 0-10000,另一个是 0-1,数值大的特征会主导权重更新。 归一化/标准化可以让所有特征站在同一起跑线

7. 下列哪个不是强化学习的四个核心要素之一? A. 智能体 B. 奖励 C. 环境 D. 标签

答案:D 解析:强化学习四要素是: Agent、Environment、Action、Reward。 Label 是有监督学习的概念。

8. 将数据集划分为训练集和测试集的主要目的是什么? A. 减少数据量 B. 评估模型泛化能力 C. 方便特征工程 D. 增加模型复杂度

答案:B 解析: 测试集的作用是模拟期末考试,检验模型在未见数据上的表现。

9. 特征降维的主要作用不包括: A. 减少计算量 B. 去除噪声 C. 方便可视化 D. 增加特征数量

答案:D 解析:降维的目标是减少维度,而不是增加。

10. AlphaGo 围棋程序主要应用了哪种机器学习方法? A. 纯监督学习 B. 纯无监督学习 C. 强化学习 D. 线性回归

答案:C 解析:AlphaGo 的核心是 强化学习,通过自我对弈不断优化策略。

二、多选题

11. 以下哪些任务属于分类问题?(多选) A. 预测股票价格 B. 识别垃圾邮件 C. 预测是否点击广告 D. 预测年降雨量

答案:B、C 解析:B、C 属于 二分类;A、D 属于 回归

12. 下列关于半监督学习的说法,正确的有?(多选) A. 可利用大量未标记数据 B. 完全不需要人工标注 C. 标注成本更低 D. 包含伪标签步骤

答案:A、C、D 解析:半监督学习仍需少量标签,因此 B 错误。

三、判断题

13. 机器学习就是让计算机通过显式编程来执行任务。

答案:错误 解析:机器学习的核心是从数据中学习规则,而不是人工写死规则。

14. 特征选择和特征降维是一回事。

答案:错误 解析: 特征选择保留原始特征子集; 特征降维生成新特征。

15. 训练数据中的标签就是模型要预测的答案。

答案:正确 解析:在有监督学习中,Label = Ground Truth,模型目标就是逼近它。