机器学习算法分类与数据处理做机器学习别一上来就挑模型，先把地图画清：数据有没有标签，决定用监督、无监督、半监督还是强化。

思维导图

在这里插入图片描述

一、机器学习算法分类

机器学习的核心在于算法，而根据数据集是否有标签，我们可以将机器学习算法分为四大类。掌握这些分类，就像拥有了机器学习的地图，能让我们在面对不同问题时快速判断方向，而不是盲目选择模型。

机器学习本质上解决的是从数据中学习规律的问题，不同的数据形态决定了我们该用哪种学习方式。

1. 有监督学习

有监督学习是最常见、应用最成熟的一类算法，也是工业界落地最多的一种形式。

定义：输入数据由特征值和目标值组成。简单来说，训练数据是带标签的，也就是每条数据都有标准答案。

换句话说，我们是在学习一个从输入到输出的映射关系。

类比：就像学生在老师的指导下学习。老师提供题目（特征）和标准答案（标签），学生通过不断练习，学会看到题目就能写出正确答案。这种有答案参考的学习方式，就是有监督学习。在这里插入图片描述 核心任务：

分类：目标值是离散的（不连续）。例如：垃圾邮件检测（是/否）、图像识别（猫/狗/车）。本质是将样本划分到不同类别。

回归：目标值是连续数值。例如：预测明天的气温、预测房价。本质是预测一个具体数值。

分类预测类别，回归预测数值。

2. 无监督学习

定义：输入数据没有标签。机器只拿到一堆数据，不知道它们代表什么，需要自己去发现数据内部的结构和规律。

类比：就像给小孩一堆积木，不告诉他怎么分类，他可能会根据颜色或形状，自发地分成几堆。这种主动归纳，就是无监督学习的核心。在这里插入图片描述 核心任务：

聚类：根据样本间的相似性，将样本划分为不同组。常见应用包括客户细分、异常检测。

降维：在保留主要信息的情况下减少特征数量，用于数据压缩或可视化分析。

一句话理解：无监督学习的核心是发现隐藏结构。

3. 半监督学习

背景：现实中数据很多，但人工标注成本很高。特别是在医学、语音识别等领域，标注往往需要专业人员参与。

定义：利用少量有标签数据和大量无标签数据进行训练。

它的核心思想是：用少量人工知识带动大量数据学习。

工作流程：

1. 先用少量有标签数据训练一个初始模型。
2. 用模型预测无标签数据，生成伪标签。
3. 将真实标签与伪标签数据结合，再次训练模型，不断优化。

优势：降低标注成本，同时充分利用海量数据。

在这里插入图片描述

4. 强化学习

定义：一个智能体在环境中不断尝试，根据获得的奖励或惩罚调整行为策略，目标是最大化累积奖励。

强化学习强调试错机制和长期收益。

核心四要素：

智能体：做出决策的主体，如 AlphaGo、机器人环境：交互场景，如围棋棋盘、迷宫行动：执行的动作，如落子、移动奖励：环境反馈，如 +1 分或 -1 分在这里插入图片描述案例：小孩学走路、训练小狗、本质上都是通过奖励反馈调整行为。

5. 算法分类总结

学习方式	关键特征	核心任务	典型案例
有监督学习	有标签 (输入+结果)	分类、回归	房价预测、人脸识别
无监督学习	无标签 (只有输入)	聚类、降维	客户分群、数据压缩
半监督学习	少量标签 + 大量无标签	分类、回归	网页分类、医学影像分析
强化学习	动态交互、奖励机制	决策控制	自动驾驶、游戏AI

二、机器学习建模流程

做一个机器学习项目，就像做一道菜，需要有清晰步骤，否则很容易翻车。

标准流程七步走：

1.获取数据：没有数据就没有模型，数据是基础。 2. 数据基本处理：清洗脏数据，处理缺失值和异常值。

特征工程：把数据转换为模型可理解的形式，这是最关键的一步。
模型训练：选择算法，让模型学习数据规律。
模型评估：使用测试集打分，判断模型效果。
结果预测：上线部署，对新数据进行预测。

在这里插入图片描述

核心主线可以理解为：数据 → 特征 → 模型 → 评估 → 应用

三、特征工程

行业里有一句非常经典的话：

“数据和特征决定上限，模型只是逼近上限。”

很多时候模型效果不好，不是算法不够复杂，而是特征不够好。

1. 什么是特征工程？

特征工程是利用专业知识对数据进行加工处理，将原始数据转换为更有表达力的特征。

简单理解就是：把原材料加工成更容易被模型理解的形式。

好的特征往往比复杂模型更重要。

在这里插入图片描述

2. 特征提取

机器只认识数字，不认识图片、文本或声音。

定义：将原始数据转换为数值特征。

例如：文本转向量，图片转像素矩阵。本质是一切数据都要数值化。

在这里插入图片描述

3. 特征预处理

痛点：量纲不统一。

解决方法：通过归一化或标准化将特征缩放到统一范围。

作用：让不同特征影响力更公平，加快模型收敛速度，提高训练稳定性

在这里插入图片描述

4. 特征降维

定义：在保留主要信息前提下减少特征维度。

原因：特征过多会增加计算成本，可能引入噪声，容易造成过拟合

效果：数据更精简，训练更高效。

在这里插入图片描述

5. 特征选择

定义：筛选出最有价值的特征，删除无用或冗余特征。

区别：

降维会生成新特征 特征选择不改变原始特征

核心目标：保留有效信息，剔除干扰因素。

在这里插入图片描述

6. 特征组合

定义：通过加减乘除等运算构造新特征。

案例：面积 = 长度 × 宽度

很多时候，组合特征比原始特征更有表达力。

在这里插入图片描述

四、练习与解析

一、单选题

1. 下列关于人工智能（AI）、机器学习（ML）和深度学习（DL）关系的描述中，正确的是： A. ML 是 AI 的子集，DL 是 AI 的子集，但 ML 和 DL 没有交集。 B. AI 是 ML 的子集，ML 是 DL 的子集。 C. DL 是 ML 的子集，ML 是 AI 的子集。 D. AI、ML 和 DL 是三个完全独立的领域。

答案：C 解析： 这是一个典型的包含关系问题。 人工智能（AI）是最大的概念； 机器学习（ML）是实现 AI 的一种方法，属于 AI 的子集； 深度学习（DL）是 ML 中基于多层神经网络的一种方法，属于 ML 的子集。

2. 在房价预测任务中，我们要预测的目标值是房价（例如：300万、500万），这类任务属于机器学习中的哪一类？ A. 分类 B. 回归 C. 聚类 D. 降维

答案：B 解析： 房价是一个连续数值，预测连续值的任务属于回归。分类的目标是离散类别（如是/否），而不是具体数值。

3. 下列哪种情况最适合使用无监督学习算法？ A. 识别图片中的动物是猫还是狗（图片已标注好类别）。 B. 根据历史天气数据预测明天的气温。 C. 给定一批客户的消费记录，自动将客户划分为不同的群体，以便进行精准营销。 D. 训练一个下围棋的机器人。

答案：C 解析： A 属于分类（有监督）； B 属于回归（有监督）； D 属于强化学习； C 是典型的聚类任务，数据没有标签，需要自动发现结构，因此属于无监督学习。

4. 在机器学习建模流程中，哪一步骤通常被认为是决定模型效果上限的关键？ A. 模型训练 B. 数据清洗 C. 特征工程 D. 模型评估

答案：C 解析： “数据和特征决定上限，模型只是逼近上限。” 特征工程直接影响模型能否提取有效信息，因此是核心关键。

5. 关于特征提取的描述，下列哪项是正确的？ A. 将多个特征相乘生成新特征。 B. 将非结构化数据（如文本、图像）转换为数值向量。 C. 删除对预测结果无用的特征。 D. 将不同量纲的特征缩放到同一范围。

答案：B 解析：A 是 特征组合；B 是 特征提取；C 是 特征选择；D 是 特征预处理。

6. 为什么要进行特征预处理中的归一化或标准化？ A. 为了增加特征的数量。 B. 为了将非数值数据转换为数值数据。 C. 为了消除不同特征之间量纲差异的影响，使模型更易收敛。 D. 为了防止过拟合。

答案：C 解析：如果一个特征范围是 0-10000，另一个是 0-1，数值大的特征会主导权重更新。归一化/标准化可以让所有特征站在同一起跑线。

7. 下列哪个不是强化学习的四个核心要素之一？ A. 智能体 B. 奖励 C. 环境 D. 标签

答案：D 解析：强化学习四要素是： Agent、Environment、Action、Reward。 Label 是有监督学习的概念。

8. 将数据集划分为训练集和测试集的主要目的是什么？ A. 减少数据量 B. 评估模型泛化能力 C. 方便特征工程 D. 增加模型复杂度

答案：B 解析： 测试集的作用是模拟期末考试，检验模型在未见数据上的表现。

9. 特征降维的主要作用不包括： A. 减少计算量 B. 去除噪声 C. 方便可视化 D. 增加特征数量

答案：D 解析：降维的目标是减少维度，而不是增加。

10. AlphaGo 围棋程序主要应用了哪种机器学习方法？ A. 纯监督学习 B. 纯无监督学习 C. 强化学习 D. 线性回归

答案：C 解析：AlphaGo 的核心是 强化学习，通过自我对弈不断优化策略。

二、多选题

11. 以下哪些任务属于分类问题？（多选） A. 预测股票价格 B. 识别垃圾邮件 C. 预测是否点击广告 D. 预测年降雨量

答案：B、C 解析：B、C 属于 二分类；A、D 属于回归。

12. 下列关于半监督学习的说法，正确的有？（多选） A. 可利用大量未标记数据 B. 完全不需要人工标注 C. 标注成本更低 D. 包含伪标签步骤

答案：A、C、D 解析：半监督学习仍需少量标签，因此 B 错误。

三、判断题

13. 机器学习就是让计算机通过显式编程来执行任务。

答案：错误 解析：机器学习的核心是从数据中学习规则，而不是人工写死规则。

14. 特征选择和特征降维是一回事。

答案：错误 解析： 特征选择保留原始特征子集； 特征降维生成新特征。

15. 训练数据中的标签就是模型要预测的答案。

答案：正确 解析：在有监督学习中，Label = Ground Truth，模型目标就是逼近它。