-
数学基础
- 微积分:理解极限、导数、积分,特别是偏导数、链式法则,这对深度学习的反向传播非常重要。
- 线性代数:矩阵运算、特征向量、SVD分解,这些是神经网络的数学基础。
- 概率统计:高斯分布、最大似然估计、贝叶斯理论,在机器学习中很常见。
-
深度学习核心原理
- 从零实现梯度下降:不依赖框架(如TensorFlow/PyTorch),用NumPy手写梯度下降算法,理解反向传播。
- 神经网络从头搭建:从简单的感知机,到MLP(多层感知机)、CNN(卷积神经网络)、RNN(循环神经网络)。
- 优化算法:SGD、Adam、Momentum等优化器的数学原理。
-
大模型训练
- Transformer的数学原理:自注意力机制、位置编码、LayerNorm等核心概念。
- 手写一个MiniGPT:从零实现一个Transformer的小版本,比如一个GPT-2简化版。
- 模型微调(Fine-tuning) :掌握LoRA、QLoRA等技术,自己动手微调一个行业大模型。
-
大模型部署
- 分布式训练:学习DeepSpeed、FSDP等技术,让大模型能高效训练。
- 量化和优化:掌握INT8、GPTQ等模型压缩方法,降低计算资源消耗。