首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
盐的甜
掘友等级
研究生
修之于身,其德乃真
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
6
文章 6
沸点 0
赞
6
返回
|
搜索文章
最新
热门
# 强化学习 14 —— TD3 算法详解与tensorflow 2.0 实现
上篇文章 强化学习 13 —— DDPG算法详解 中介绍了DDPG算法,本篇介绍TD3算法。TD3的全称为 Twin Delayed Deep Deterministic Policy Gradient(双延迟深度确定性策略)。可以看出,TD3就是DDPG算法的升级版,所以如果…
强化学习13——Deep Deterministic Policy Gradient(DDPG)原理与实现
与确定性策略对应的是随机性策略,就是神经网络输出的是动作的分布,在确定每一步动作时,我们需要得到的策略分布进行采样,对于某些高纬的连续值动作,频繁的在高维空间对动作进行采样,是很耗费计算能力的。 同样,对于DQN算法,其只适用于低维、离散动作的问题,对于连续动作问题,DQN要计…
强化学习 12 —— Actor-Critic 算法详解与 Tensorflow 2.0 实现
其中 $G_t$ 就表示当前采取的行为,到episode结束一共能获得的奖励。对于 $G_t$ 是使用 MC 采样得到的 sample,只有到达最终状态才能逆序计算 $G_t$ ,这也是 REINFORCE 算法效率不高的原因,那么能不能不用等到游戏结束就可以更新参数呢?当然是…
强化学习 11 —— REINFORCE 算法 Tensorflow 2.0 实现
对于这个式子,我们是基于 MC 采样的方法得来的。对于MC采样的轨迹是没有偏差的。但是因为是采样,所以每条轨迹获得的奖励非常不稳定,造成有比较高的方差。为了减少方差,这里有两个办法:1、使用时间因果关系(Use temporal causality)。2、引入 Baseline…
强化学习 10 —— Policy Gradient 推导
前面几篇文章价值函数近似、DQN算法、DQN改进算法DDQN和Dueling DQN我们学习了 DQN 算法以及其改进算法 DDQN 和 Dueling DQN 。他们都是对价值函数进行了近似表示,也就是 学习价值函数,然后从价值函数中提取策略,我们把这种方式叫做 Value …
强化学习 9 —— DQN 改进算法 DDQN、Dueling DQN 详解
其中的 $max$ 操作使得估计的值函数比值函数的真实值大,因为DQN是一种off-policy的方法,每次学习时,不是使用下一次交互的真实动作,而是使用当前认为价值最大的动作来更新目标值函数,(注:对于真实的策略来说并在给定的状态下并不是每次都选择使得Q值最大的动作,所以在这…
强化学习 8 —— DQN 代码 Tensorflow 2.0 实现
在上一篇文章强化学习——DQN介绍 中我们详细介绍了DQN 的来源,以及对于强化学习难以收敛的问题DQN算法提出的两个处理方法:经验回放和固定目标值。这篇文章我们就用代码来实现 DQN 算法 本算法以及以后文章要介绍的算法都会使用 由 $OpenAI$ 推出的$Gym$仿真环境…
强化学习 7 —— 一文详解 DQN 算法
上篇文章强化学习——状态价值函数逼近介绍了价值函数逼近(Value Function Approximation,VFA)的理论,本篇文章介绍大名鼎鼎的DQN算法。DQN算法是 DeepMind 团队在2015年提出的算法,对于强化学习训练苦难问题,其开创性的提出了两个解决办法…
强化学习 6 —— 价值函数逼近
上篇文章强化学习——时序差分 (TD) 控制算法 Sarsa 和 Q-Learning我们主要介绍了 Sarsa 和 Q-Learning 两种时序差分控制算法,在这两种算法内部都要维护一张 Q 表格,对于小型的强化学习问题是非常灵活高效的。但是在状态和可选动作非常多的问题中,…
强化学习 5 —— SARSA 和 Q-Learning 代码实现与详解
上篇文章 强化学习——时序差分 (TD) --- SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题,TD对比MC有很多优势,比如TD有更低方差,可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸…
下一页
个人成就
文章被点赞
55
文章被阅读
65,416
掘力值
1,044
关注了
7
关注者
71
收藏集
3
关注标签
22
加入于
2018-08-29