强化学习

强化学习

强化学习

强化学习基础学习

暂无订阅共12篇文章创建于2023-01-12

00 矩阵求导

矩阵求导 main idea 函数的输出如果不是标量，那么求导就是对他的每一个输出分别求，于是问题退化成了输出是标量

3年前
5.1k
57
评论

01 回归分析

线性回归 Model 对一条数据$x\in R^d$，然后相应的weight $w\in R^d$, bias是标量。预测值$y=x^T w+b$，一般为了方便，把x第一个位置增加一个1，然后b个w组

3年前
146
2
评论

02 分类问题

分类为什么不能直接用线性回归？-多分类不适用，penalize samples that are too correct 目标是接近1，但可能远大于1，影响了最优分类面的确定概率生成式模型分类问

3年前
175
2
评论

03 反向传播

反向传播高效求解深度神经网络中的梯度下降 notations 假设模型的输出层是一个向量$(a^l_1,a^l_2,...a^l_n)$，$l$表示层数，a表示经过激活函数$\sigma$后了，经过

3年前
112
2
评论

Tips for Deep Learning 1 训练好网络后，先检验train set上的performance，再检验test set上的performance。 2 不要总是归因于overfit

3年前
179
2
评论

1 RL基本建模

RL研究的基本问题直观框架与基本概念 RL建模非常直观，他建模了智能体agent和环境environment不断交互的过程。 1 智能体agent：内部维护了一个策略policy，他能够基于对环境的

3年前
263
2
评论

2 Model-Based方法：策略迭代与价值迭代

Model-Based方法：策略迭代与价值迭代我们已经知道，RL就是在给定了环境$p(s',r|s,a)$的情况下，求$\pi(\cdot|s)$使得能够最大化期望累计收益$\mathbb{E}[\

3年前
1.2k
4
评论

2 Model-Based方法：策略迭代与价值迭代

3 Model-Free中的基础技术

Model-Free中的基础技术：蒙特卡洛、on/off-policy、时许差分、TD(n)、资格迹

3年前
188
2
评论

4 REINFORCE策略梯度

策略梯度REINFORCE 理论介绍策略梯度是一个非常直观的方法。为什么说很直观，因为它直接尝试用神经网络拟合policy，然后优化目标也直接就是期望累计收益。用神经网络拟合policy，具体说，

3年前
210
2
评论

策略梯度 PPO 基本理论回顾REINFORCE，使用神经网络拟合policy，优化目标为$\mathbb{E}[R(\tau)\nabla \sum \log \pi_\theta(s,a)]$，

3年前
280
2
评论

DQN理论介绍回顾Q函数的基于Q函数的策略改进首先回顾第二章中$Q$函数的定义以及策略改进的思路。 Q函数的定义: 在$S$状态下执行$A$，之后按照$\pi$执行，得到的期望累计收益为$Q^\p

3年前
183
2
评论

7-AC

AC和A2C 前面分别介绍了PolicyGradient（REINFORCE和PPO）以及DQN算法。这两个分别是policy-based（actor）和value-based（critic）算法。a

3年前
275
2
评论