首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
小小何先生
掘友等级
硕二在读
|
公众号:小小何先生
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
25
文章 24
沸点 1
赞
25
返回
|
搜索文章
最新
热门
【ICLR 2018】模型集成的TRPO算法【附代码】
model free的方法具有high sample complexity ,难将其用于real-world。用ensemble的方式来克服model bias。 标准的model-based方法是交替使用model learning和policy aptimization。m…
【CoRL 2018】通过元策略优化的MBRL算法
提出一种不依赖于learned dynamic model精度的学习算法Model-Based Meta-Policy-Optimization (MB-MPO),。同样是使用emsemble的方法集成learned model,然后用meta-train的方法学一个polic…
【NIPS 2018】循环World模型促进策略演变
从world model中学一个policy,并将迁移到real world。 人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到不同的抽象理解,而这个理解跟他自己之前建立的世界观存在相关性。这种对世界的认知能够帮助我们,遇到问题或者是…
【ICLR2020】基于模型的强化学习算法玩Atari【附代码】
model-free的强化学习算法已经在Atari游戏上取得了巨大成功,但是与人类选手相比,model-free的强化学习算法需要的交互数据往往大地多。其根本原因在于人类选手能够很容易学习到游戏的大概运行规律,从而进行预测规划。因此为了达到用少量数据学习控制Atari游戏的目的…
【5分钟 Paper】(TD3) Addressing Function Approximation Error in Actor-Critic Methods
value-base的强化学习值函数的近似估计会过估计值函数(DQN),作者将Double Q-Learning处理过拟合的思想引入actor critic算法中。(过估计的问题就在于累计误差会使得某些不好的state的value变地很高(exploration 不充分所导致的…
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
这篇文章将Deep Q-Learning运用到Deterministic Policy Gradient算法中。如果了解DPG的话,那这篇文章就是引入DQN改进了一下DPG的state value function。解决了DQN需要寻找maximizes action-valu…
【5分钟 Paper】Deterministic Policy Gradient Algorithms
stochastic policy的方法由于含有部分随机,所以效率不高,方差大,采用deterministic policy方法比stochastic policy的采样效率高,但是没有办法探索环境,因此只能采用off-policy的方法来进行了。 以往的action是一个动作…
Trust Region Policy Optimization (TRPO) 背后的数学原理
本文是自己的TRPO算法学习笔记,在数学原理推导核心部分附有自己的理解与解释。整篇文章逻辑清晰,思路顺畅。有想推导的同学可以一起学习。 TRPO和PPO都是基于Minorize-Maximization MM的算法。 easy to optimize. (找这样一个替代函数的目…
【5分钟 Paper】Asynchronous Methods for Deep Reinforcement Learning
在强化学习算法中agent所观测到的data是 non-stationary和strongly correlated的。通过设置memory的方式可以 reduces non-stationarity and decorrelates updates,但是会限制这些方法去使用o…
【5分钟 Paper】Prioritized Experience Replay
Experience replay能够让强化学习去考虑过去的一些经验,在【1】这篇文章之前通常采用随机采样的方式在记忆库中采样。但是有一些记忆比较关键,因此随机采样的方式就不太好。作者提出了一种prioritizing experience的方式,来提高学习的效率。 参考文献【…
下一页
个人成就
文章被点赞
66
文章被阅读
80,401
掘力值
1,385
关注了
5
关注者
587
收藏集
0
关注标签
11
加入于
2020-01-28