在跑 DRL 算法时,如果不懂底层的数学逻辑,很容易陷入“玄学调参”的死胡同。为了彻底打通从公式到算法的任督二脉,我整理了一份 200 页的学习笔记,系统梳理了强化学习的底层数学原理和现代 DRL 架构。
一、 深入数学底座:强化学习的数学原理 此部分内容专注于 RL 运行的数学本质:
- 状态与价值的演化:详细解析 MDP 建模,手推贝尔曼方程与贝尔曼最优公式。
- 核心求解范式:从经典的值迭代、策略迭代,跨越到蒙特卡洛(MC)估计与时序差分(TD)算法(Sarsa/Q-learning)。
- 向深度学习过渡:结合随机近似与 SGD,解析值函数近似的底层逻辑。
- 高级理论基础:推导策略梯度(Policy Gradient)定理,拆解 Actor-Critic 方法的数学模型及重要性采样的应用。
二、 纵览算法全貌:DRL 主流架构解析 跳出公式,纵观经典论文中的算法演进:
-
Value-Based 路线:Q-learning 至 DQN 系列的突破。
-
Actor-Critic 核心阵营:
- 详解连续控制领域的霸主:随机策略(TRPO/PPO/SAC)与 确定性策略(DDPG/TD3)。
-
关键机制组件:深入探讨 PER(优先经验回放)与噪声网络在提升探索和训练稳定性上的机制。
本笔记力求以结构化的方式呈现 DRL 知识网络。完整文档已开源,感兴趣的开发者可以前往 GitHub 获取,欢迎 pr 与交流讨论!
github.com/0324Lw/Deep…