稀土掘金 稀土掘金
    • 首页
    • AI Coding NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • AI刷题
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
    • vip
      会员
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
强化学习
订阅
avatar
piaoyun
更多收藏集

微信扫码分享

微信
新浪微博
QQ

2篇文章 · 0订阅
  • 强化学习总结01 基本概念
    1. 概述 强化学习是智能体(Agent)与环境(Environment)不断交互, 不断提高自己的决策能力的过程. 所学习的样本来自于与环境的交互。而非像传统机器学习的样本是现有的。 。 2. 强化学习的组成 回报值 又称累积折扣奖励(cumulative discounte…
    • 白话Python
    • 5年前
    • 1.6k
    • 3
    • 评论
    强化学习
    强化学习总结01 基本概念
  • 强化学习总结02 马尔可夫决策过程
    马尔可夫决策过程(Markov Decision Processes, MDPs)是对强化学习问题的数学描述。 要求环境是全观测的。 所以要求环境是全观测的,(如果是部分观测的话,状态信息有缺失)。 状态转移概率指从一个马尔可夫状态 s 跳转到后继状态 (successor s…
    • 白话Python
    • 5年前
    • 3.0k
    • 4
    • 评论
    强化学习
    强化学习总结02 马尔可夫决策过程