深度学习基础与概念 | 学习笔记 | 深度学习革命本文主要介绍了深度学习的基础概念、学习方法和笔记记录策略。文章详细列举

修订历史：

2025/06/16 记录《深度学习基础与概念》笔记

1 学习方法

1.1 如何学习

1.1.1 教材特点

系统性
- 知识体系完整：内容从基础概念到前沿架构依次展开。首先介绍发展历程、基本概念及多领域应用；接着深入讲解支撑深度学习的数学原理；随后阐述基础网络模型（单层、多层、深度神经网络），并涵盖前沿网络架构（如卷积神经网络、Transformer等）。
理论性
- 算法原理详尽：对基础网络模型的结构、功能、优化方法及其应用进行了全面介绍。同时，对正则化、采样、潜变量、生成对抗网络、自编码器、扩散模型等关键技术的原理、算法流程及实际应用场景也进行了深入探讨。
实践性
- 习题丰富：从第2章起，提供了不同难度的练习题，帮助读者巩固所学知识。

1.1.2 如何学习？

1.2 如何做笔记

对于不同知识类型，建议的做笔记方法。

知识类型	学习阶段	推荐组合
理论体系	掌握期	脑图（框架）
		表格（对比）
		列表（考点）
技能/习题操作	巩固期	列表（步骤）
		表格（错误库）
		脑图（关联）
创意设计	发散期	脑图（灵感）
		列表（筛选）
		表格（方案比选）

在本阶段学习中，重点在于夯实理论基础，因此笔记的记录方法如下：

脑图搭框架；
表格列对比；
要点列清单。

备注

以上三种笔记方法的对比总结如下

方法类型	核心逻辑	适用场景	工具推荐	操作要点	优缺点对比
列表法	层级化结构梳理知识框架	课堂速记/项目拆解/线性知识整理	workflowy、Obsidian	① 分层缩进记录 ② 关键词提炼（≤5个/层） ③ 动态调整分支	✅ 逻辑清晰易检索 ❌ 发散性弱
表格法	结构化对比与信息整合	概念对比/数据整理/流程分析	Excel、石墨文档、手绘表格	① 纵向分类属性 ② 横向对比差异 ③ 突出核心指标（加粗/变色）	✅ 对比效率高 ❌ 创意表达受限
脑图法	可视化关联与知识网络构建	复杂系统分析/创意发散/跨领域整合	XMind、幕布、手绘思维导图	① 中心主题发散 ② 关键词节点连接 ③ 色块/图标标注	✅ 发散性强 ✅ 记忆留存高 ❌ 细节易丢失
组合策略	三法联动提升学习闭环	综合型学习/团队协作/长期知识管理	Notion、飞书多维表格、Obsidian	① 脑图→列表分解任务 ② 表格→数据验证 ③ 列表→脑图重构体系	✅ 形成完整认知闭环 ❌ 学习曲线陡峭

2 【深度学习革命】笔记

深度学习革命.png

2.1 术语与定义

中文术语	英文术语及缩写	教程中定义	解释（零基础版）
机器学习	Machine Learning, ML	通过数据让计算机自动学习规律，以完成特定任务（如图像识别、预测等）	教电脑自己总结规律（比如看100张猫图后，手机就能自动识别新猫图）
误差函数	Error Function	量化模型预测值与真实值之间差异的函数	给模型打分的"错题本"（比如手机把狗识别成猫，就会在这本子上记1分错误）
损失函数	Loss Function	误差函数的一种，通常用于优化过程中计算损失值	模型的"综合成绩单"（包含错题分数+额外扣分项，比如抄作业会多扣10分）
模型比较	Model Comparision	通过交叉验证等指标评估不同模型的泛化性能	给不同AI模型办选秀比赛（比较谁在陌生题库上的正确率更高）
模型选择	Model Selection	基于验证集表现选择最优超参数组合的过程	给AI选装备（调整学习速度、记忆容量等参数，找到最佳配置）
均方根	Root Mean Square, RMS	一种衡量误差大小的统计量，计算预测值与真实值差的平方的平均值的平方根	全班数学平均分的计算方法（先平方消负数，再开根号）
正则化	Regularization	为防止模型过拟合而加入的约束项，限制模型复杂度	给AI戴"紧箍咒"（限制它死记硬背训练数据，必须总结通用规律）
收缩方法	Shrinkage	通过数学手段使模型参数值减小，避免过拟合	让AI参数像保守的投资者（只投资低风险项目，放弃高收益高风险）
权重衰减	Weight Decay	一种正则化方法，通过惩罚权重的大小来限制模型复杂度	训练模型前需要人工设置的参数（如：学习时间和学习强度）
超参数	Hyperparameter	在模型训练前需要手动设置的参数，如学习率、正则化参数等	训练模型前需要人工设置的参数（如：学习时间和学习强度）
交叉验证	Cross-validation	将数据集分成多个子集，用其中一部分进行测试，其余进行训练，多次重复以评估模型稳定性	用不同数据组合反复测试模型稳定性（类似多次模拟考试）
留一法	Leave-one-out	一种极端的交叉验证方法，每次只留一个样本作为测试集	最严格的交叉验证方式（每次只用1个样本测试）
预激活	Pre-activation	神经网络中，输入数据经过加权求和但尚未通过激活函数处理的阶段	输入数据经过处理但还没决定是否激活前的步骤（如：食材准备阶段）
激活函数	Activation Function	用于将预激活值转换为神经元的输出值，引入非线性因素	决定神经元是否被激活的"开关"（类似电路中的继电器）
激活	Activation	激活函数处理后的神经元输出值	神经元被激活后的状态（开关打开后的电流状态）
多层感知机	Multi Layer Perceptron, MLP	一种简单的前馈神经网络，包含多个隐藏层	最简单的深度学习模型（像多层筛子过滤信息）
隐藏单元	Hidden Unit	神经网络中不可见的计算单元，用于提取数据特征	神经网络中不可见的计算单元（如：大脑的"黑箱"区域）
前馈神经网络	Feed-forward Neural Network	信息从输入层单向流向输出层的神经网络	信息单向流动的神经网络（像流水线作业）
反向传播	Error Backpropagation	通过误差反向传播更新网络权重的方法	从错误反向调整参数的过程（类似考试后订正错题）
随机梯度下降	Stochastic Gradient Descent	一种基于梯度的优化算法，通过随机选择样本计算梯度	逐步逼近最优解的优化方法（像盲人摸象找出口）
先验知识	Prior Knowledge	在训练模型之前已有的知识或假设	训练前已有的知识储备（如：知道企鹅不会飞）
归纳偏执	Inductive Bias	模型在学习过程中所依赖的假设或倾向	模型固有的假设倾向（如：认为鸟都会飞）
特征提取	Feature Extraction	从原始数据中提取有用信息的过程	从原始数据中提取关键信息（如：从照片中提取颜色、形状）
图形处理单元	Graphics Processing Unit, GPU	一种专门用于图形计算的硬件加速器	专门处理图像计算的超级计算器（游戏显卡的升级版）
表示学习/表征学习	Representation Learning	让数据自动形成有意义的表达方式	让数据自动形成有意义的表达方式（如：将文字转成数学特征）
基础模型	Foundation Model	经过海量数据预训练的通用模型，可用于多种下游任务	经过海量数据预训练的通用模型（如：GPT-3）
残差连接	Residual Connection	在神经网络中引入的直接连接，允许信息绕过某些层	神经网络中的"快捷通道"（绕过中间层直接传递信息）
自动微分	Automatic Differentiation	计算函数导数的自动化方法	计算机自动计算导数的技术（数学工具的自动化）
测试集	Test Set	用于最终评估模型性能的数据集，模型在训练过程中未见过	模型最终检验的"考试卷"（不能提前看的内容）
过拟合	Over-fitting	模型在训练数据上表现很好，但在新数据上表现很差的现象	考前死记100道原题，考试换一道题就全错
欠拟合	Under-fitting	模型在训练数据上表现不佳，通常是因为模型过于简单	用算盘计算火箭轨道（工具太原始，根本算不出来）
数据增强	Data Augmentation	通过对数据进行变换（如旋转、缩放等）来增加数据多样性	给训练图片加滤镜（旋转、裁剪、加噪点，让AI看到更多变形）
注意力机制	Attention Mechanism	让模型聚焦重要信息	阅读时重点标记关键词（AI会自动标出最相关的句子）
Transformer	Transformer	基于注意力机制的神经网络架构，用于处理序列数据	现代AI的"智能大脑"（像乐高积木，可自由组合不同功能模块）
微调	Fine-tune	在预训练模型上继续训练	给老司机换新车（保留原有驾驶技能，适应新车型）
提示词工程	Prompt Engineering	设计有效的提示词，以引导模型生成期望	给AI写"任务说明书"（比如："用武侠风格写200字产品介绍"）
强化学习	Reinforcement Learning	基于环境交互和奖励信号的学习范式	训练宠物做指令（通过奖励正确行为，逐步学会新技能）
马尔可夫决策过程	Markov Decision Process, MDP	描述智能体与环境交互的数学框架	游戏角色的"决策手册"（每一步动作都考虑当前状态）
奖励函数	Reward Function	定义在强化学习中，用于衡量行为好坏的函数	游戏的"得分规则"（打怪+10分，捡装备+5分）
探索与利用	Exploration vs Exploitation	在强化学习中平衡尝试新行为与利用已知好行为的策略	旅游时的选择困境（是去新景点探险，还是回老地方打卡）

补充说明：建议学习顺序

基础概念：机器学习 → 监督/无监督 → 训练集/验证集/测试集
核心组件：神经网络 → 激活函数 → 损失函数 → 优化算法
进阶技术：正则化 → 梯度下降 → 预训练 → 微调
现代AI：Transformer → 注意力机制 → 基础模型 → 提示词工程