深度强化学习(DRL)算法系列文章合集

76 阅读1分钟

1. 深度强化学习(DRL)算法 1 —— REINFORCE - 掘金 (juejin.cn)

2. 深度强化学习(DRL)算法 2 —— PPO 之 Clipped Surrogate Objective 篇 - 掘金 (juejin.cn)

3. 深度强化学习(DRL)算法 2 —— PPO 之 GAE 篇 - 掘金 (juejin.cn)

4. 深度强化学习(DRL)算法 3 —— Deep Q-learning(DQN) - 掘金 (juejin.cn)

5. 深度强化学习(DRL)算法 4 —— Deep Deterministic Policy Gradient (DDPG) - 掘金 (juejin.cn)

6. 深度强化学习(DRL)算法 5 —— Twin Delayed Deep Deterministic Policy Gradient (TD3) - 掘金 (juejin.cn)

7. 深度强化学习(DRL)算法 附录1 —— 贝尔曼公式 - 掘金 (juejin.cn)

8. 深度强化学习(DRL)算法 附录 2 —— 策略迭代和价值迭代 - 掘金 (juejin.cn)

9. 深度强化学习(DRL)算法 附录 3 —— 蒙特卡洛方法(MC)和时序差分(TD) - 掘金 (juejin.cn)

10. 深度强化学习(DRL)算法 附录 4 —— 一些常用概念(KL 散度、最大熵 MDP etc.) - 掘金 (juejin.cn)

11. 深度强化学习(DRL)算法 附录 5 —— CV 基础回顾篇 - 掘金 (juejin.cn)

12. 深度强化学习(DRL)算法 附录 6 —— NLP 回顾之预训练模型篇 - 掘金 (juejin.cn)

这个系列介绍了常用的单智能体强化学习方法,也有些没有写到,比如 SAC,希望以后有时间可以回来补完。还有多智能体算法这个系列没有涉及,希望以后可以有时间谢谢多智能体算法。最后用一句话暂时结束这个系列:

奋斗,追求,不达目的,誓不罢休! ——《船长与大尉》

下个系列会开始介绍 RLXF(包括 RLHF、RLAIF)欢迎关注。