首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
强化学习
小菜羊
创建于2021-08-05
订阅专栏
记录自己学习强化学习过程的一些笔记,望大佬们多多指教~~
等 3 人订阅
共11篇文章
创建于2021-08-05
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Pytorch实现DDPG算法
DDPG是强化学习里的一种经典算法,在之前的文章里已详细介绍过,本文是对该算法的实践,使用Pytorch来实现DDPG算法。
OfflineRL——BCQ算法
最近在看offlineRL相关的内容,本文主要了解offlineL中经典的BCQ算法,主要基于提出算法的论文原文。
什么是Offline RL?
本文对Offline RL的概念进行一个简单的介绍。offline RL即离线强化学习,也叫batch RL。
强化学习入门8—深入理解DDPG
本文是强化学习入门系列的第八篇,前面我们讲Actor-Critic时提到了DDPG。DDPG是google DeepMind团队提出的一种用于输出确定性动作的算法。
强化学习入门7—Actor-Critic
本文是强化学习入门系列的第七篇,介绍一种结合了策略梯度和时序差分的算法——Actor-Critic即演员评论家算法。
强化学习入门6—Policy Gradient策略梯度
本文是强化学习入门系列的第六篇,将介绍一种有别于前面Q-learning这些基于价值的算法——策略梯度。
强化学习入门5—一文带你了解DQN
本文是强化学习入门系列的第五篇。我们前面介绍了Q-learning,今天介绍一个深度版的Q-learning。
强化学习入门4—Q-learning和Sarsa
本文是强化学习入门系列的第4篇,主要介绍强化学习当中非常常见的两个时序差分算法:Q-learning和Sarsa。
强化学习入门3—动态规划
本文为强化学习入门系列的第三篇,主要介绍如何通过动态规划来求解贝尔曼最优方程。本节将详细介绍策略迭代、价值迭代两种方法。
强化学习入门2—初识MDP
本文为强化学习入门系列的第二篇,主要介绍强化学习中非常重要的理论框架—— MDP 马尔可夫决策过程。
强化学习入门1—多臂老虎机问题
本节是强化学习入门系列的第一篇,主要是对sutton大神的《强化学习》这本书的相关内容做了一些笔记,简单介绍了bandits问题的解决思路。