修订历史:
- 2025/06/16 记录《深度学习基础与概念》笔记
1 学习方法
1.1 如何学习
1.1.1 教材特点
- 系统性
- 知识体系完整:内容从基础概念到前沿架构依次展开。首先介绍发展历程、基本概念及多领域应用;接着深入讲解支撑深度学习的数学原理;随后阐述基础网络模型(单层、多层、深度神经网络),并涵盖前沿网络架构(如卷积神经网络、Transformer等)。
- 理论性
- 算法原理详尽:对基础网络模型的结构、功能、优化方法及其应用进行了全面介绍。同时,对正则化、采样、潜变量、生成对抗网络、自编码器、扩散模型等关键技术的原理、算法流程及实际应用场景也进行了深入探讨。
- 实践性
- 习题丰富:从第2章起,提供了不同难度的练习题,帮助读者巩固所学知识。
1.1.2 如何学习?
1.2 如何做笔记
对于不同知识类型,建议的做笔记方法。
| 知识类型 | 学习阶段 | 推荐组合 |
|---|---|---|
| 理论体系 | 掌握期 | 脑图(框架) |
| 表格(对比) | ||
| 列表(考点) | ||
| 技能/习题操作 | 巩固期 | 列表(步骤) |
| 表格(错误库) | ||
| 脑图(关联) | ||
| 创意设计 | 发散期 | 脑图(灵感) |
| 列表(筛选) | ||
| 表格(方案比选) |
在本阶段学习中,重点在于夯实理论基础,因此笔记的记录方法如下:
- 脑图搭框架;
- 表格列对比;
- 要点列清单。
备注
- 以上三种笔记方法的对比总结如下
| 方法类型 | 核心逻辑 | 适用场景 | 工具推荐 | 操作要点 | 优缺点对比 |
|---|---|---|---|---|---|
| 列表法 | 层级化结构梳理知识框架 | 课堂速记/项目拆解/线性知识整理 | workflowy、Obsidian | ① 分层缩进记录 ② 关键词提炼(≤5个/层) ③ 动态调整分支 | ✅ 逻辑清晰易检索 ❌ 发散性弱 |
| 表格法 | 结构化对比与信息整合 | 概念对比/数据整理/流程分析 | Excel、石墨文档、手绘表格 | ① 纵向分类属性 ② 横向对比差异 ③ 突出核心指标(加粗/变色) | ✅ 对比效率高 ❌ 创意表达受限 |
| 脑图法 | 可视化关联与知识网络构建 | 复杂系统分析/创意发散/跨领域整合 | XMind、幕布、手绘思维导图 | ① 中心主题发散 ② 关键词节点连接 ③ 色块/图标标注 | ✅ 发散性强 ✅ 记忆留存高 ❌ 细节易丢失 |
| 组合策略 | 三法联动提升学习闭环 | 综合型学习/团队协作/长期知识管理 | Notion、飞书多维表格、Obsidian | ① 脑图→列表分解任务 ② 表格→数据验证 ③ 列表→脑图重构体系 | ✅ 形成完整认知闭环 ❌ 学习曲线陡峭 |
2 【深度学习革命】笔记
2.1 术语与定义
| 中文术语 | 英文术语及缩写 | 教程中定义 | 解释(零基础版) |
|---|---|---|---|
| 机器学习 | Machine Learning, ML | 通过数据让计算机自动学习规律,以完成特定任务(如图像识别、预测等) | 教电脑自己总结规律(比如看100张猫图后,手机就能自动识别新猫图) |
| 误差函数 | Error Function | 量化模型预测值与真实值之间差异的函数 | 给模型打分的"错题本"(比如手机把狗识别成猫,就会在这本子上记1分错误) |
| 损失函数 | Loss Function | 误差函数的一种,通常用于优化过程中计算损失值 | 模型的"综合成绩单"(包含错题分数+额外扣分项,比如抄作业会多扣10分) |
| 模型比较 | Model Comparision | 通过交叉验证等指标评估不同模型的泛化性能 | 给不同AI模型办选秀比赛(比较谁在陌生题库上的正确率更高) |
| 模型选择 | Model Selection | 基于验证集表现选择最优超参数组合的过程 | 给AI选装备(调整学习速度、记忆容量等参数,找到最佳配置) |
| 均方根 | Root Mean Square, RMS | 一种衡量误差大小的统计量,计算预测值与真实值差的平方的平均值的平方根 | 全班数学平均分的计算方法(先平方消负数,再开根号) |
| 正则化 | Regularization | 为防止模型过拟合而加入的约束项,限制模型复杂度 | 给AI戴"紧箍咒"(限制它死记硬背训练数据,必须总结通用规律) |
| 收缩方法 | Shrinkage | 通过数学手段使模型参数值减小,避免过拟合 | 让AI参数像保守的投资者(只投资低风险项目,放弃高收益高风险) |
| 权重衰减 | Weight Decay | 一种正则化方法,通过惩罚权重的大小来限制模型复杂度 | 训练模型前需要人工设置的参数(如:学习时间和学习强度) |
| 超参数 | Hyperparameter | 在模型训练前需要手动设置的参数,如学习率、正则化参数等 | 训练模型前需要人工设置的参数(如:学习时间和学习强度) |
| 交叉验证 | Cross-validation | 将数据集分成多个子集,用其中一部分进行测试,其余进行训练,多次重复以评估模型稳定性 | 用不同数据组合反复测试模型稳定性(类似多次模拟考试) |
| 留一法 | Leave-one-out | 一种极端的交叉验证方法,每次只留一个样本作为测试集 | 最严格的交叉验证方式(每次只用1个样本测试) |
| 预激活 | Pre-activation | 神经网络中,输入数据经过加权求和但尚未通过激活函数处理的阶段 | 输入数据经过处理但还没决定是否激活前的步骤(如:食材准备阶段) |
| 激活函数 | Activation Function | 用于将预激活值转换为神经元的输出值,引入非线性因素 | 决定神经元是否被激活的"开关"(类似电路中的继电器) |
| 激活 | Activation | 激活函数处理后的神经元输出值 | 神经元被激活后的状态(开关打开后的电流状态) |
| 多层感知机 | Multi Layer Perceptron, MLP | 一种简单的前馈神经网络,包含多个隐藏层 | 最简单的深度学习模型(像多层筛子过滤信息) |
| 隐藏单元 | Hidden Unit | 神经网络中不可见的计算单元,用于提取数据特征 | 神经网络中不可见的计算单元(如:大脑的"黑箱"区域) |
| 前馈神经网络 | Feed-forward Neural Network | 信息从输入层单向流向输出层的神经网络 | 信息单向流动的神经网络(像流水线作业) |
| 反向传播 | Error Backpropagation | 通过误差反向传播更新网络权重的方法 | 从错误反向调整参数的过程(类似考试后订正错题) |
| 随机梯度下降 | Stochastic Gradient Descent | 一种基于梯度的优化算法,通过随机选择样本计算梯度 | 逐步逼近最优解的优化方法(像盲人摸象找出口) |
| 先验知识 | Prior Knowledge | 在训练模型之前已有的知识或假设 | 训练前已有的知识储备(如:知道企鹅不会飞) |
| 归纳偏执 | Inductive Bias | 模型在学习过程中所依赖的假设或倾向 | 模型固有的假设倾向(如:认为鸟都会飞) |
| 特征提取 | Feature Extraction | 从原始数据中提取有用信息的过程 | 从原始数据中提取关键信息(如:从照片中提取颜色、形状) |
| 图形处理单元 | Graphics Processing Unit, GPU | 一种专门用于图形计算的硬件加速器 | 专门处理图像计算的超级计算器(游戏显卡的升级版) |
| 表示学习/表征学习 | Representation Learning | 让数据自动形成有意义的表达方式 | 让数据自动形成有意义的表达方式(如:将文字转成数学特征) |
| 基础模型 | Foundation Model | 经过海量数据预训练的通用模型,可用于多种下游任务 | 经过海量数据预训练的通用模型(如:GPT-3) |
| 残差连接 | Residual Connection | 在神经网络中引入的直接连接,允许信息绕过某些层 | 神经网络中的"快捷通道"(绕过中间层直接传递信息) |
| 自动微分 | Automatic Differentiation | 计算函数导数的自动化方法 | 计算机自动计算导数的技术(数学工具的自动化) |
| 测试集 | Test Set | 用于最终评估模型性能的数据集,模型在训练过程中未见过 | 模型最终检验的"考试卷"(不能提前看的内容) |
| 过拟合 | Over-fitting | 模型在训练数据上表现很好,但在新数据上表现很差的现象 | 考前死记100道原题,考试换一道题就全错 |
| 欠拟合 | Under-fitting | 模型在训练数据上表现不佳,通常是因为模型过于简单 | 用算盘计算火箭轨道(工具太原始,根本算不出来) |
| 数据增强 | Data Augmentation | 通过对数据进行变换(如旋转、缩放等)来增加数据多样性 | 给训练图片加滤镜(旋转、裁剪、加噪点,让AI看到更多变形) |
| 注意力机制 | Attention Mechanism | 让模型聚焦重要信息 | 阅读时重点标记关键词(AI会自动标出最相关的句子) |
| Transformer | Transformer | 基于注意力机制的神经网络架构,用于处理序列数据 | 现代AI的"智能大脑"(像乐高积木,可自由组合不同功能模块) |
| 微调 | Fine-tune | 在预训练模型上继续训练 | 给老司机换新车(保留原有驾驶技能,适应新车型) |
| 提示词工程 | Prompt Engineering | 设计有效的提示词,以引导模型生成期望 | 给AI写"任务说明书"(比如:"用武侠风格写200字产品介绍") |
| 强化学习 | Reinforcement Learning | 基于环境交互和奖励信号的学习范式 | 训练宠物做指令(通过奖励正确行为,逐步学会新技能) |
| 马尔可夫决策过程 | Markov Decision Process, MDP | 描述智能体与环境交互的数学框架 | 游戏角色的"决策手册"(每一步动作都考虑当前状态) |
| 奖励函数 | Reward Function | 定义在强化学习中,用于衡量行为好坏的函数 | 游戏的"得分规则"(打怪+10分,捡装备+5分) |
| 探索与利用 | Exploration vs Exploitation | 在强化学习中平衡尝试新行为与利用已知好行为的策略 | 旅游时的选择困境(是去新景点探险,还是回老地方打卡) |
补充说明:建议学习顺序
- 基础概念:机器学习 → 监督/无监督 → 训练集/验证集/测试集
- 核心组件:神经网络 → 激活函数 → 损失函数 → 优化算法
- 进阶技术:正则化 → 梯度下降 → 预训练 → 微调
- 现代AI:Transformer → 注意力机制 → 基础模型 → 提示词工程