Dingyuan

赞

49

|

搜索文章

7-AC

AC和A2C 前面分别介绍了PolicyGradient（REINFORCE和PPO）以及DQN算法。这两个分别是policy-based（actor）和value-based（critic）算法。a

3年前
269
2
评论

DQN理论介绍回顾Q函数的基于Q函数的策略改进首先回顾第二章中$Q$函数的定义以及策略改进的思路。 Q函数的定义: 在$S$状态下执行$A$，之后按照$\pi$执行，得到的期望累计收益为$Q^\p

3年前
176
2
评论

本章研究球放入箱子的过程，一个是从随机视角切入的，另一个是从计数视角切入的。随机视角模型概述 $m$个球扔进$n$个盒子，每个球进入等可能独立地扔进任何一个盒子。

3年前
510
1
评论

0 内容提要本文覆盖概率与计算第二版Chap1-4，9的内容。这5章内容比较基础，涉及：理论概率的基本概念交、并、贝叶斯、全概率计算公式期望、方差、中位数等数字特征 Jensen不等式、M

3年前
408
1
评论

策略梯度 PPO 基本理论回顾REINFORCE，使用神经网络拟合policy，优化目标为$\mathbb{E}[R(\tau)\nabla \sum \log \pi_\theta(s,a)]$，

3年前
269
2
评论

4 REINFORCE策略梯度

策略梯度REINFORCE 理论介绍策略梯度是一个非常直观的方法。为什么说很直观，因为它直接尝试用神经网络拟合policy，然后优化目标也直接就是期望累计收益。用神经网络拟合policy，具体说，

3年前
201
2
评论

3 Model-Free中的基础技术

Model-Free中的基础技术：蒙特卡洛、on/off-policy、时许差分、TD(n)、资格迹

3年前
186
2
评论

1 RL基本建模

RL研究的基本问题直观框架与基本概念 RL建模非常直观，他建模了智能体agent和环境environment不断交互的过程。 1 智能体agent：内部维护了一个策略policy，他能够基于对环境的

3年前
248
2
评论

2 Model-Based方法：策略迭代与价值迭代

Model-Based方法：策略迭代与价值迭代我们已经知道，RL就是在给定了环境$p(s',r|s,a)$的情况下，求$\pi(\cdot|s)$使得能够最大化期望累计收益$\mathbb{E}[\

3年前
1.1k
4
评论

2 Model-Based方法：策略迭代与价值迭代

个人成就

文章被点赞 201

文章被阅读 23,416

加入于

2023-01-12