狂野Ai大模型学习笔记（一）人工智能和机器学习人工智能（AI, Artificial Intelligence）这是

人工智能和机器学习

人工智能（AI, Artificial Intelligence）

这是最广泛的概念，指的是使机器能够模拟人类智能行为的技术和研究领域。AI包括理解语言、识别图像、解决问题等各种能力。

机器学习（ML, Machine Learning）

机器学习是实现人工智能的一种方法。它涉及到算法和统计模型的使用，使得计算机系统能够从数据中“学习”和改进任务的执行，而不是通过明确的编程来实现。机器学习包括多种技术，如KNN、线性回归、逻辑回归、决策树、集成学习、聚类算法等。

深度学习（DL, Deep Learning）

深度学习是机器学习中的一种特殊方法，它使用称为神经网络的复杂结构，特别是“深层”的神经网络，来学习和做出预测。深度学习特别适合处理大规模和高维度的数据，如图像、声音和文本。

机器学习常用术语

样本、特征、标签

截屏2026-01-22 14.53.24.png

样本(sample) ：一行数据就是一个样本；多个样本组成数据集；有时一条样本被叫成一条记录
特征(feature) ：一列数据一个特征，有时也被称为属性。
标签/目标(label/target) ：模型要预测的那一列数据。

数据集划分

截屏2026-01-22 14.57.28.png

数据集可划分两部分：训练集、测试集，比例：8:2，7:3
训练集：用来训练模型的数据集
测试集：用来测试模型的数据集

机器学习算法分类

有监督学习（有问题有答案）

截屏2026-01-22 15.15.25.png

输入数据是由输入特征值和目标值所组成，即输入的训练数据有标签的
学习目标：学习特征 -> 标签的映射关系 -> 预测
经典算法：线性回归、逻辑回归、决策树、支持向量机
应用场景：预测、分类、估值

有监督分类问题 & 回归问题

分类问题：
- 目标值（标签值）是不连续的（有限的类别）
- 分类种类：二分类、多分类
- 就业薪资只能是高中低
回归问题：
- 目标值是连续的（数值在一个范围内，可以是任意值）
- 房价可以是0-1000任意值

无监督学习（有问题无答案）

截屏2026-01-22 15.15.55.png

输入数据没有被标记，即样本数据类别未知，没有标签，根据样本间的相似性，对样本集聚类，以发现事物内部结构及相互关系。
学习目标：发现数据的内部结构（分组），用于洞察
经典算法： k-均值聚类、主成分分析（PCA）
应用场景：市场细分、异常检测、数据压缩

无监督学习再举例

截屏2026-01-22 16.00.54.png

无监督学习特点：训练数据无标签，根据样本间的相似性对样本集进行聚类，发现事物内部结构及相互关系。
无监督学习核心过程就是聚类，聚类的核心思想就是物以类聚、人与群分

半监督(部分样本有目标值、部分数据无目标值)

截屏2026-01-22 16.20.15.png

核心思想：利用少量标注数据与大量未标注数据共同作用
解决的核心痛点：在实际的应用中，想获取大量高质量的数据成本极高，非常困难，而未标注的数据相对容易。
半监督的学习目标：利用少量昂贵的标注数据作为“指导”，同时充分利用大量廉价的未标注数据中隐藏的结构信息，来训练一个比单纯使用少量数据更强大的模型。

工作原理

第一步：用标注数据初始化模型
- 过程：让领域专家动手标注少量数据，利用这部分高质量的数据训练一个初始的预测模型
- 解读：相当于监督学习，目的是获得一个具备基础判断能力的“初步模型”
第二步：用模型预测未标注数据
- 过程：使用上一步训练好的初始模型，去预测那些大量未标注的数据，并为他们打上“伪标签”
- 解读：模型将其从少量标注数据中学习到的规律，推广到未标注数据上，视图“猜测”这些数据的标签
第三步：专家介入与模型改进
- 过程：将模型预测的结果（伪标签）与领域专家的判断进行对比。
- 对于模型预测置信度高且正确的样本：可以将其（数据+伪标签）加入训练集，以扩充标注数据
- 对于模型预测置信度低或者专家认为错误的样本：由专家进行纠正，并将纠正的正确样本加入训练集
- 解读：这是半监督学习的核心，通过“模型预测”和“专家验证”的交互，不断的筛选出有价值的样本进行标注，以最高效的方式提升标注数据的规模和质量，从而迭代的改进模型。

强化学习

强化学习：机器学习的一个重要分支
应用场景：里程碑AplhaGo围棋、各类游戏、对抗比赛、无人驾驶场景
强化学习与监督学习和无监督学习有根本不同，他的灵感来自于人类的学习方式：通过“试错”并根据行为后果“奖励”来学习，目标是让一个智能体在一系列决策中，学会采取能够获得长期最大累计奖励的行为策略。
举例：
- 智能体：学习的主题，也是策略者（游戏中的玩家，自动驾驶汽车）
- 环境：智能体所处与之交互的外部世界（围棋棋盘，游戏场景，道路）
- 行动：智能体在特定时刻可以执行的活动（如移动一步，落子，转动方向盘）
- 奖励：环境反馈给智能体的一个标准值，用于评价刚刚执行的动作好坏（如得分，获胜/失败信号）
工作流程：
1. 在时刻t，智能体观察当前的环境St
2. 基于当前的状态St和自身的策略，智能体选择执行一个行动A
3. 环境因智能体的行动而改变，进入一个新的状态St+1
4. 环境给予智能体一个奖励Rt+1（可能是正奖励，也可能是负奖励）
5. 智能体根据获得的奖励来评估刚才行动的好坏，并```更新其决策策略````。
6. 然后循环回到步骤1，持续进行。
这个循环的终极目标是：让智能体学会一个策略，这个策略就是指导它在任何状态下选择行动，使得从长远来看所获得的累积奖励（总回报）最大化。

机器学习算法分类总结

截屏2026-01-25 12.04.54.png

截屏2026-01-25 12.05.15.png

机器学习建模流程

截屏2026-01-25 12.44.28.png

获取数据：收集用于训练模型的原始数据
- 内容：数据可以是来自于多种渠道，可以是图像数据，也可以是用户行为数据，也可以是数据库数据等。
数据基本处理：清洗和整理数据，使其满足后续分析的要求
- 内容：数据缺失值处理和异常值处理
特征工程：从原始数据中提取和构建对预测目标最有用的信息（特征）
- 内容：特征提取、特征预处理
机器学习：（模型训练）使用处理好的数据来训练一个预测模型
- 内容：“机器学习”的核心步骤，根据问题类型（分类、回归）选择合适的算法让算法从“特征”和“标签”中学习瑰丽
模型评估：客观的衡量训练好的模型在未知数据上的表现。

有监督学习模型训练和模型预测

截屏2026-01-25 12.41.21.png

训练：从数据中学习规律
- 输入：原始数据（文档、图片、用户信息等）
- 特征提取：提取原始数据转化为计算机能够理解的，数值化的信息，即特征想了
- 机器学习算法：这是学习的单，算法接收两部分
  - 特征向量：描述了每个样本的属性
  - 标签：每个样本对应的真实结果和类别（例如，邮件是“垃圾邮件”还是“正常邮件”）
- 输出：训练过程的最终产物是一个训练好的模型（classifier model）这个模型本质上是一个数学函数，它封装了从“特征”到“标签”的最佳映射关系。
预测：根据模型解决新的问题
- 根据模型解决新的问题
  - 输入：新的，未标记的原始数据（一封新的邮件）
  - 特征提取：与训练阶段需要完全一致，必须使用相同的方法将新数据转化为相同格式的特征向量，为了保证模型处理的数据与其学习时看到的数据格式一致。
  - 分类器模型：这是训练阶段的最终产物，现在可以被投入使用，他将新数据的特性向量作为输入
  - 输出：模型根据训练阶段学习到的规律，计算出一个预测的标签。

特征工程概念入门

截屏2026-01-25 12.57.26.png

特征工程
- 利用专业背景知识和技巧处理数据，让技巧学习算法效果最好。这个过程就是特征工程。
- 数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

涉及内容

截屏2026-01-25 13.25.44.png

特征提取
- 原始数据中提取与任务相关的特征，构造特征向量。
- 根据图片提出特征，比如每朵不再用图片表示，而是使用一个四维特征向量来表示，从而可以进行数学模型处理。
特征预处理
- 清洗和标准特征
- 清洗：缺失值处理
- 标准化特征：将不同尺寸的特征（收入（万）和年龄（百岁内））转化成一个相同的尺寸，避免某些特征因为值过大从而主导了模型的训练。
特征降纬
- 简化数据，保留精华，在尽可能保留大部分有用信息的前提下，减少特征的数量，从而减少计算开销。
特征选择
- 筛选有用的特征，从所有特征中，挑选出对预测目标最相关的，最重要的一个特征子集。
特征组合
- 创造新的特征，将两个或多个现有特征进行组合（如相乘、相除），生成新的特征，以捕获特征之间的交互作用。

拟合

指的是机器学习模型对训练数据的匹配程度，我们目标不是完美的拟合训练数据，而是构建一个能够很好的泛化到未知数据的模型，欠拟合和过拟合是模型训练中需要避免的两种不良状态。
拟合
- 在机器学习领域，用来表示模型对样本点的拟合情况
欠拟合
- 模型在训练集上表现很差，在测试集表现也很差
- 模型过于简单，只需要了非常少且表面的特征
过拟合
- 模型在训练集上表现很好，在测试集表现很差
- 模型过于复杂、数据不纯、训练数据太少

距离度量

截屏2026-02-27 22.23.03.png

特征预处理

为什么做归一化和标准化？
- 特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些模型（算法）无法学习到其它的特征。
- 体重差异太大，影响到身高和视力对健康状况的影响。过度关注体重这个特征。

归一化

通过对原始数据进行变换把数据映射到【mi,mx】(默认为【0，1】)之间
归一化是一种数据缩放技术，将原始的数据线性变换为指定的数值区间，通常是【0，1】或者【-1，1】
归一化完全依赖数据中的最小值和最大值，只要有一个值有异常，则整个数据的缩放基准都会改变
- 假设年龄数据【20，25，30，35，200】（200就是异常值）
- 归一化灾难min = 20, max = 200
- 结果【0,0.028,0.056,0.083,1】
- 所有正常的年龄都被压缩到0-0.08的狭窄区域内。

标准化

数据标准化：通过对原始数据进行标注化，转化为均值为0标准差为1的标准正态分布的数据
特点：对异常值相对鲁棒，适合现代大数据的场景