首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
阿姆姆姆姆姆姆姆
掘友等级
算法工程师
庾信平生无萧瑟,暮年诗赋动江关。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
45
文章 26
沸点 19
赞
45
返回
|
搜索文章
赞
文章( 26 )
沸点( 19 )
深度强化学习(DRL)算法 附录 2 —— 策略迭代和价值迭代
马尔可夫决策过程(MDP) 马尔可夫链(具有马尔可夫性质的随机过程)+ A(动作:会导致状态转移) + R(奖励:衡量动作的好坏) 动态特性 定义如下概率: $p(s^{\prime}, r | s,
深度强化学习(DRL)算法 2 —— PPO 之 GAE 篇
在之前的文章里介绍了 深度强化学习(DRL)算法 2 —— PPO 之 Clipped Surrogate Objective 篇 - 掘金 (juejin.cn),提出了现有方法存在方差较大的缺点,
深度强化学习(DRL)算法 附录1 —— 贝尔曼公式
贝尔曼公式:根据 Contraction mapping theorem 可知贝尔曼最优公式中的 v(state value) 存在唯一的最优解,并且可能有多种最优策略。
深度强化学习(DRL)算法 2 —— PPO 之 Clipped Surrogate Objective 篇
在之前的文章里介绍了 深度强化学习(DRL)算法 1 —— REINFORCE - 掘金 (juejin.cn),提出了两个缺点,其中缺点一,在后续提出的 DRL 算法 PPO 解决了,今天我们就来看
深度强化学习(DRL)算法 1 —— REINFORCE
前言 就像引言里所描述的养成习惯的四个步骤,如果我们想让机器也有自己的“习惯”,去掉机器没有的渴求属性,就是强化学习所做的事情 —— 帮机器养成“习惯”,而 DRL 就是使用深度学习的技术去实现强化学
个人成就
文章被点赞
29
文章被阅读
9,850
掘力值
534
关注了
2
关注者
0
收藏集
0
关注标签
72
加入于
2016-09-12