稀土掘金 稀土掘金
    • 首页
    • 沸点
    • 课程
    • 数据标注 HOT
    • AI Coding
    • 更多
      • 直播
      • 活动
      • APP
      • 插件
    • 直播
    • 活动
    • APP
    • 插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
用户739784702556的个人资料头像

用户739784702556

掘友等级
掘友2级:见习掘友
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2 沸点 0
赞
2
返回
|
搜索文章
赞
文章( 2 ) 沸点( 0 )
  • 强化学习 6 —— 价值函数逼近
    上篇文章强化学习——时序差分 (TD) 控制算法 Sarsa 和 Q-Learning我们主要介绍了 Sarsa 和 Q-Learning 两种时序差分控制算法,在这两种算法内部都要维护一张 Q 表格,对于小型的强化学习问题是非常灵活高效的。但是在状态和可选动作非常多的问题中,…
    • 盐的甜
    • 5年前
    • 750
    • 2
    • 评论
    强化学习
  • 强化学习 3 —— 蒙特卡洛法(MC)解决无模型问题的预测与控制
    可以发现,对于这两个算法,有一个前提条件是奖励 R 和状态转移矩阵 P 我们是知道的,因此我们可以使用策略迭代和价值迭代算法。对于这种情况我们叫做 Model base。同理可知,如果我们不知道环境中的奖励和状态转移矩阵,我们叫做 Model free。 不过有很多强化学习问题…
    • 盐的甜
    • 5年前
    • 1.3k
    • 1
    • 评论
    强化学习
  • 关注了
    2
    关注者
    0
    收藏集
    1
    关注标签
    0
    加入于
    2023-10-30