强化学习

强化学习

强化学习

强化学习相关播客

暂无订阅共2篇文章创建于2025-06-17

Q-learning 极简教程

一、前言 Q-learning 是一种基于价值估计的方法，在深度强化学习之前，发挥巨大作用。Q-learning 也叫表格 Q-learning。其目的在于学习一个状态-动作到 Q 值映射的表格。在学

10月前
449
2
2

Policy Gradient 极简教程

一、前言 Policy Gradient 是一种非常强大的强化学习算法，正如其名，Policy Gradient 通过直接对 Policy 本身计算梯度来实现学习的目的。 Policy Gradien

10月前
519
2
评论