首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
用户739784702556
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
用户739784702556
赞了这篇文章
盐的甜
研究生
·
5年前
关注
强化学习 6 —— 价值函数逼近
上篇文章强化学习——时序差分 (TD) 控制算法 Sarsa 和 Q-Learning我们主要介绍了 Sarsa 和 Q-Learning 两种时序差分控制算法,在这两种算...
2
评论
分享
用户739784702556
赞了这篇文章
盐的甜
研究生
·
5年前
关注
强化学习 3 —— 蒙特卡洛法(MC)解决无模型问题的预测与控制
可以发现,对于这两个算法,有一个前提条件是奖励 R 和状态转移矩阵 P 我们是知道的,因此我们可以使用策略迭代和价值迭代算法。对于这种情况我们叫做 Model base。同...
1
评论
分享
用户739784702556
关注了
盐的甜
用户739784702556
关注了
工边页字
关注了
2
关注者
0
收藏集
1
关注标签
0
加入于
2023-10-30