狂野Ai大模型学习笔记(一)

59 阅读10分钟

人工智能和机器学习

人工智能(AI, Artificial Intelligence)

  • 这是最广泛的概念,指的是使机器能够模拟人类智能行为的技术和研究领域。AI包括理解语言、识别图像、解决问题等各种能力。

机器学习(ML, Machine Learning)

  • 机器学习是实现人工智能的一种方法。它涉及到算法和统计模型的使用,使得计算机系统能够从数据中“学习”和改进任务的执行,而不是通过明确的编程来实现。机器学习包括多种技术,如KNN、线性回归、逻辑回归、决策树、集成学习、聚类算法等。

深度学习(DL, Deep Learning)

  • 深度学习是机器学习中的一种特殊方法,它使用称为神经网络的复杂结构,特别是“深层”的神经网络,来学习和做出预测。深度学习特别适合处理大规模和高维度的数据,如图像、声音和文本。

机器学习常用术语

样本、特征、标签

截屏2026-01-22 14.53.24.png

  • 样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录
  • 特征(feature) :一列数据一个特征,有时也被称为属性。
  • 标签/目标(label/target) :模型要预测的那一列数据。

数据集划分

截屏2026-01-22 14.57.28.png

  • 数据集可划分两部分:训练集测试集,比例:8:2,7:3
  • 训练集:用来训练模型的数据集
  • 测试集:用来测试模型的数据集

机器学习算法分类

有监督学习(有问题有答案)

截屏2026-01-22 15.15.25.png

  • 输入数据是由输入特征值目标值所组成,即输入的训练数据有标签
  • 学习目标:学习特征 -> 标签的映射关系 -> 预测
  • 经典算法:线性回归、逻辑回归、决策树、支持向量机
  • 应用场景:预测、分类、估值
有监督分类问题 & 回归问题
  • 分类问题:

    • 目标值(标签值)是不连续的(有限的类别)
    • 分类种类:二分类、多分类
    • 就业薪资只能是高中低 截屏2026-01-22 15.56.44.png
  • 回归问题:

    • 目标值连续的(数值在一个范围内,可以是任意值)
    • 房价可以是0-1000任意值 截屏2026-01-22 15.57.16.png

无监督学习(有问题无答案)

截屏2026-01-22 15.15.55.png

  • 输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现事物内部结构及相互关系。
  • 学习目标:发现数据的内部结构(分组),用于洞察
  • 经典算法: k-均值聚类、主成分分析(PCA)
  • 应用场景: 市场细分、异常检测、数据压缩
无监督学习再举例

截屏2026-01-22 16.00.54.png

  • 无监督学习特点:训练数据无标签,根据样本间的相似性对样本集进行聚类,发现事物内部结构相互关系
  • 无监督学习核心过程就是聚类,聚类的核心思想就是物以类聚、人与群分

半监督(部分样本有目标值、部分数据无目标值)

截屏2026-01-22 16.20.15.png

  • 核心思想 :利用少量标注数据大量未标注数据共同作用
  • 解决的核心痛点:在实际的应用中,想获取大量高质量的数据成本极高,非常困难,而未标注的数据相对容易。
  • 半监督的学习目标利用少量昂贵的标注数据作为“指导”,同时充分利用大量廉价的未标注数据中隐藏的结构信息,来训练一个比单纯使用少量数据更强大的模型。
工作原理
  • 第一步:用标注数据初始化模型
    • 过程:让领域专家动手标注少量数据,利用这部分高质量的数据训练一个初始的预测模型
    • 解读:相当于监督学习,目的是获得一个具备基础判断能力的“初步模型”
  • 第二步:用模型预测未标注数据
    • 过程:使用上一步训练好的初始模型,去预测那些大量未标注的数据,并为他们打上“伪标签”
    • 解读:模型将其从少量标注数据中学习到的规律,推广到未标注数据上,视图“猜测”这些数据的标签
  • 第三步:专家介入与模型改进
    • 过程:将模型预测的结果(伪标签)与领域专家的判断进行对比
    • 对于模型预测置信度高且正确的样本:可以将其(数据+伪标签)加入训练集,以扩充标注数据
    • 对于模型预测置信度低或者专家认为错误的样本:由专家进行纠正,并将纠正的正确样本加入训练集
    • 解读:这是半监督学习的核心,通过“模型预测”“专家验证”的交互,不断的筛选出有价值的样本进行标注,以最高效的方式提升标注数据的规模和质量,从而迭代的改进模型。

强化学习

  • 强化学习:机器学习的一个重要分支
  • 应用场景:里程碑AplhaGo围棋、各类游戏、对抗比赛、无人驾驶场景 截屏2026-01-25 11.38.48.png
  • 强化学习与监督学习和无监督学习有根本不同,他的灵感来自于人类的学习方式:通过“试错”并根据行为后果“奖励”来学习,目标是让一个智能体在一系列决策中,学会采取能够获得长期最大累计奖励的行为策略。
  • 举例:
    • 智能体:学习的主题,也是策略者(游戏中的玩家,自动驾驶汽车)
    • 环境:智能体所处与之交互的外部世界(围棋棋盘,游戏场景,道路)
    • 行动:智能体在特定时刻可以执行的活动(如移动一步,落子,转动方向盘)
    • 奖励:环境反馈给智能体的一个标准值,用于评价刚刚执行的动作好坏(如得分,获胜/失败信号)
  • 工作流程:
    1. 在时刻t,智能体观察当前的环境St
    2. 基于当前的状态St和自身的策略,智能体选择执行一个行动A
    3. 环境因智能体的行动而改变,进入一个新的状态St+1
    4. 环境给予智能体一个奖励Rt+1(可能是正奖励,也可能是负奖励)
    5. 智能体根据获得的奖励来评估刚才行动的好坏,并```更新其决策策略````。
    6. 然后循环回到步骤1,持续进行。
  • 这个循环的终极目标是:让智能体学会一个策略,这个策略就是指导它在任何状态下选择行动,使得从长远来看所获得的累积奖励(总回报)最大化。

机器学习算法分类总结

截屏2026-01-25 12.04.54.png

截屏2026-01-25 12.05.15.png

机器学习建模流程

截屏2026-01-25 12.44.28.png

  • 获取数据:收集用于训练模型的原始数据
    • 内容:数据可以是来自于多种渠道,可以是图像数据,也可以是用户行为数据,也可以是数据库数据等。
  • 数据基本处理:清洗和整理数据,使其满足后续分析的要求
    • 内容:数据缺失值处理和异常值处理
  • 特征工程:从原始数据中提取和构建对预测目标最有用的信息(特征)
    • 内容:特征提取、特征预处理
  • 机器学习:(模型训练)使用处理好的数据来训练一个预测模型
    • 内容:“机器学习”的核心步骤,根据问题类型(分类、回归)选择合适的算法让算法从“特征”和“标签”中学习瑰丽
  • 模型评估:客观的衡量训练好的模型在未知数据上的表现。

有监督学习模型训练和模型预测

截屏2026-01-25 12.41.21.png

  • 训练:从数据中学习规律
    • 输入:原始数据(文档、图片、用户信息等)
    • 特征提取:提取原始数据转化为计算机能够理解的,数值化的信息,即特征想了
    • 机器学习算法:这是学习的单,算法接收两部分
      • 特征向量:描述了每个样本的属性
      • 标签:每个样本对应的真实结果和类别(例如,邮件是“垃圾邮件”还是“正常邮件”)
    • 输出:训练过程的最终产物是一个训练好的模型(classifier model)这个模型本质上是一个数学函数,它封装了从“特征”到“标签”的最佳映射关系。
  • 预测:根据模型解决新的问题
    • 根据模型解决新的问题
      • 输入:新的,未标记的原始数据(一封新的邮件)
      • 特征提取:与训练阶段需要完全一致,必须使用相同的方法将新数据转化为相同格式的特征向量,为了保证模型处理的数据与其学习时看到的数据格式一致。
      • 分类器模型:这是训练阶段的最终产物,现在可以被投入使用,他将新数据的特性向量作为输入
      • 输出:模型根据训练阶段学习到的规律,计算出一个预测的标签。

特征工程概念入门

截屏2026-01-25 12.57.26.png

  • 特征工程
    • 利用专业背景知识技巧处理数据,让技巧学习算法效果最好。这个过程就是特征工程
    • 数据特征决定了机器学习的上限,而模型算法只是逼近这个上限而已。
涉及内容

截屏2026-01-25 13.25.44.png

  • 特征提取
    • 原始数据中提取与任务相关的特征,构造特征向量
    • 根据图片提出特征,比如每朵不再用图片表示,而是使用一个四维特征向量来表示,从而可以进行数学模型处理。
  • 特征预处理
    • 清洗和标准特征
    • 清洗:缺失值处理
    • 标准化特征:将不同尺寸的特征(收入(万)和年龄(百岁内))转化成一个相同的尺寸,避免某些特征因为值过大从而主导了模型的训练。
  • 特征降纬
    • 简化数据,保留精华,在尽可能保留大部分有用信息的前提下,减少特征的数量,从而减少计算开销。
  • 特征选择
    • 筛选有用的特征,从所有特征中,挑选出对预测目标最相关的,最重要的一个特征子集。
  • 特征组合
    • 创造新的特征,将两个或多个现有特征进行组合(如相乘、相除),生成新的特征,以捕获特征之间的交互作用。

拟合

  • 指的是机器学习模型对训练数据的匹配程度,我们目标不是完美的拟合训练数据,而是构建一个能够很好的泛化到未知数据的模型,欠拟合过拟合是模型训练中需要避免的两种不良状态。
  • 拟合
    截屏2026-01-27 14.33.58.png
    • 在机器学习领域,用来表示模型对样本点的拟合情况
  • 欠拟合 截屏2026-01-27 14.33.52.png
    • 模型在训练集上表现很差,在测试集表现也很差
    • 模型过于简单,只需要了非常少且表面的特征
  • 过拟合 截屏2026-01-27 14.34.01.png
    • 模型在训练集上表现很好,在测试集表现很差
    • 模型过于复杂、数据不纯、训练数据太少