强化学习

强化学习

强化学习

强化学习系列文章

暂无订阅共5篇文章创建于2026-01-28

【强化学习】第六章：无模型控制：在轨MC控制、在轨时序差分学习(Sarsa)、离轨学习(Q-learning)

从知识点上看，本篇是承接前五章的所有重点和难点！所以你前面知识点必须非常熟悉，本篇才能顺水推舟的理解了。尽管本篇我已经尽力回溯之前的知识点，但你还是得没有逻辑断点，才能看懂本篇。

3月前
71
点赞
评论

【强化学习】第五章：无模型评估：蒙特卡洛学习、时序差分学习、TD(λ)

无模型(Model-free)是指现实问题是一个非完备的MDP，我们只能实实在在的去打几步或者打完整个游戏，然后得到一些s,a,r序列，然后通过这些序列去计算状态价值。

3月前
122
点赞
评论

【强化学习】第四章：动态规划(DP)

类似梯度下降算法就是为了求解损失函数的最小值一样，动态规划法也只是求解价值函数的一种方法。，所以本篇重点讲怎么用动态规划求解价值函数，而非动态规划法背后的理论和数学推导。

3月前
50
点赞
评论

【强化学习】第三章：马尔可夫决策过程(MDP)、贝尔曼期望方程、贝尔曼最优方程

本篇非常基础也非常难，但是本篇是整个强化学习的基石，务必非常清晰得弄懂本篇的所有知识点，后面的学习才会一马平川。

3月前
117
点赞
评论

【强化学习】第一章：强化学习知识体系介绍

DeepMind大卫·希尔弗在youtube发布了一套强化学习视频公开课，系统全面地介绍了强化学习的各种思想、实现算法，对理解强化学习来说是一套非常好的入门教程。本系列文章是参考这套课程体系整理而来。

3月前
199
点赞
评论