首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
强化学习
订阅
赤西沽
更多收藏集
微信扫码分享
微信
新浪微博
QQ
28篇文章 · 0订阅
论文研读 Discretized Approximations for POMDP with Average Cost
在每个时间段,环境处于某种状态s. agent在A中采取动作a,这会导致转换到状态s'的环境概率为T。同时,代理接收观察o,它取决于环境的新状态,概率为O。最后,代理接收奖励等于R。然后重复该过程。目标是让代理人在每个时间步骤选择最大化其预期未来折扣奖励的行动: 首先讨论离散化…
论文研读(DPG)Deterministic Policy Gradient Algorithms
it is the expected gradient of the action-value function. 导致在连续动作任务上,表现效果远优于stochastic policy gradient.
《强化学习》入门C12 Eligibility Traces
利用 eligibility trace 将online λ -return 算法变换为 backward view 算法。 trace表现的更好而且有更清楚的理论解释。 尽管资格迹紧密的和TD学习算法结合在一起,但实际上他们和TD并没有关系。实际上资格迹甚至可以直接用在MC算…
《强化学习》入门C7 n-step Bootstrapping
其中这里的 Vt:S→R是 vπ 在时刻t的估计值。St+1的v值用的是t时刻估计的老值 s≠Sts≠StVt+n(s)=Vt+n−1(s)Vt+n(s)=Vt+n−1(s)。依旧用的是老值,因为还没更新到它 即如果单单从前向视角(或者说原理层面)来考虑TD(λ)算法,那么它就…
《强化学习》入门C9 on-policy prediction with approximation
强化学习任务需要实时在线学习,一边和环境交互一边学习。因此需要一个效率很高的模型,可以不断接收新增的训练样本进行快速学习。 强化学习任务需要处理”非稳态目标函数”问题。 ------有个迭代的变化过程 (GPI中pi一变qpi就会跟着变。bootstrapping中valve值…
《强化学习》入门C5 Monte Carlo Methods
On-policy的目标策略和行为策略是同一个策略,其好处就是简单粗暴,直接利用数据就可以优化其策略,但这样的处理会导致策略其实是在学习一个局部最优,因为On-policy的策略没办法很好的同时保持即
《强化学习》入门C6 Temporal-Difference Learning
1虽然TD保证了即时性,那么它有没有保证正确性呢?幸运的是这一点是成立的。当上面的step-size parameter 恒定且足够小或者逐渐递减但是满足随即近似理论,最终的结果都是可以保证收敛的。随机近似理论第二章提到过: 每一个新产生的episode,都会和之前所有经过的e…
《强化学习》入门C8 Planning and Learning withTabular Methods 简要版
更新步长’的优势??这个特点是必要的,因为当planning过程一旦不合适需要重置,这样的步长会尽可能减少计算量。事实上之后的几节我们也会看到,小步长对于大多数单纯的planning过程也是很必要的,特别是当问题规模特别大的时候。 search和control指的是:为模型经验…
论文研读(DDPG)continuous control with deep reinforcement learning
Abstract&Conclusion从DQN衍生出一种可以用在连续动作空间的DDPG算法DDPG=actorcritic+deterministicpolicigradient+deep-learn
论文研读Multi-Robot Path Planning Method Using Reinforcement Learning
CNN提取特征信息,以A*算法作为补偿函数,进行DQN的学习,机器人在学习过程中Q值是共享的。