首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
一九零零
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
36
文章 36
沸点 0
赞
36
返回
|
搜索文章
赞
文章( 36 )
沸点( 0 )
2 Model-Based方法:策略迭代与价值迭代
Model-Based方法:策略迭代与价值迭代 我们已经知道,RL就是在给定了环境$p(s',r|s,a)$的情况下,求$\pi(\cdot|s)$使得能够最大化期望累计收益$\mathbb{E}[\
1 RL基本建模
RL研究的基本问题 直观框架与基本概念 RL建模非常直观,他建模了智能体agent和环境environment不断交互的过程。 1 智能体agent:内部维护了一个策略policy,他能够基于对环境的
3 Model-Free中的基础技术
Model-Free中的基础技术:蒙特卡洛、on/off-policy、时许差分、TD(n)、资格迹
4 REINFORCE策略梯度
策略梯度REINFORCE 理论介绍 策略梯度是一个非常直观的方法。为什么说很直观,因为它直接尝试用神经网络拟合policy,然后优化目标也直接就是期望累计收益。 用神经网络拟合policy,具体说,
5 PPO
策略梯度 PPO 基本理论 回顾REINFORCE,使用神经网络拟合policy,优化目标为$\mathbb{E}[R(\tau)\nabla \sum \log \pi_\theta(s,a)]$,
5 蒙特卡洛
蒙特卡洛 基本思想 构造一个采样方式,使得对某个统计量的估计恰好是要求的结果。 $(\epsilon, \delta)$近似:对V的估计满足$\Pr[|X-V|\le \epsilon V]\ge 1
4 马尔可夫
基本概念 随机过程$X(t)$是随机变量的集合。根据$t$的取值和$X$的取值特点,可以分为离散时间、连续时间、离散状态、连续状态 马尔科夫性(MP):$Pr[X_t|X_{t-1}, X_{t-2}
6-DQN
DQN理论介绍 回顾Q函数的基于Q函数的策略改进 首先回顾第二章中$Q$函数的定义以及策略改进的思路。 Q函数的定义: 在$S$状态下执行$A$,之后按照$\pi$执行,得到的期望累计收益为$Q^\p
7-AC
AC和A2C 前面分别介绍了PolicyGradient(REINFORCE和PPO)以及DQN算法。这两个分别是policy-based(actor)和value-based(critic)算法。a
2 内积空间
内积空间 把内积推广到一般线性空间 定义 在一般的线性空间的基础上,再增加如下4条 $\forall \theta \ne \alpha \in V, \langle\alpha, \alpha\ra
下一页
关注了
1
关注者
0
收藏集
0
关注标签
0
加入于
2023-01-29