首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
强化学习之路
订阅
白话Python
更多收藏集
微信扫码分享
微信
新浪微博
QQ
5篇文章 · 0订阅
强化学习总结05 无模型方法之时间差分
时间差分方法(Temporal-Difference,TD)是强化学习中最为「核心」的想法。 DP 中,利用了贝尔曼方程去解强化学习问题。由于**环境模型已知,**当前状态的下一个状态全部已知,「直接求期望即可」。 整体看来,在时间差分评价算法中,是利用「TD目标」(估计出来的…
强化学习总结04 无模型方法之蒙特卡洛
所谓“无模型”,表示环境模型是未知的,即马尔可夫决策过程中的 和 是未知的。 上式中用到了 ,因此,无模型的情况无法通过动态规划的方法解决,只能通过采样经验来估计值函数。 行为策略需要比目标策略更具备探索性。即,在每个状态下,目标策略的可行动作是行为策略可行动作的子集 重要性采…
强化学习总结 03-动态规划
最优子结构: 满足最优性原理,优的解可以被分解成子问题的最优解。 回顾贝尔曼期望方程,满足递归形式。【当前状态的值函数 = E(当前的奖励+后继状态×衰减系数) 】,可以把问题分解成子问题 使用动态规划解决强化学习问题时,要求知道 MDPs 的所有元素。这是因为强化学习问题中最…
强化学习总结02 马尔可夫决策过程
马尔可夫决策过程(Markov Decision Processes, MDPs)是对强化学习问题的数学描述。 要求环境是全观测的。 所以要求环境是全观测的,(如果是部分观测的话,状态信息有缺失)。 状态转移概率指从一个马尔可夫状态 s 跳转到后继状态 (successor s…
强化学习总结01 基本概念
1. 概述 强化学习是智能体(Agent)与环境(Environment)不断交互, 不断提高自己的决策能力的过程. 所学习的样本来自于与环境的交互。而非像传统机器学习的样本是现有的。 。 2. 强化学习的组成 回报值 又称累积折扣奖励(cumulative discounte…