首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
强化学习
Dingyuan
创建于2023-01-12
订阅专栏
强化学习基础学习
暂无订阅
共12篇文章
创建于2023-01-12
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
00 矩阵求导
矩阵求导 main idea 函数的输出如果不是标量,那么求导就是对他的每一个输出分别求,于是问题退化成了输出是标量
01 回归分析
线性回归 Model 对一条数据$x\in R^d$,然后相应的weight $w\in R^d$, bias是标量。预测值$y=x^T w+b$,一般为了方便,把x第一个位置增加一个1,然后b个w组
02 分类问题
分类 为什么不能直接用线性回归?-多分类不适用,penalize samples that are too correct 目标是接近1,但可能远大于1,影响了最优分类面的确定 概率生成式模型 分类问
03 反向传播
反向传播 高效求解深度神经网络中的梯度下降 notations 假设模型的输出层是一个向量$(a^l_1,a^l_2,...a^l_n)$,$l$表示层数,a表示经过激活函数$\sigma$后了,经过
04 DL经验
Tips for Deep Learning 1 训练好网络后,先检验train set上的performance,再检验test set上的performance。 2 不要总是归因于overfit
1 RL基本建模
RL研究的基本问题 直观框架与基本概念 RL建模非常直观,他建模了智能体agent和环境environment不断交互的过程。 1 智能体agent:内部维护了一个策略policy,他能够基于对环境的
2 Model-Based方法:策略迭代与价值迭代
Model-Based方法:策略迭代与价值迭代 我们已经知道,RL就是在给定了环境$p(s',r|s,a)$的情况下,求$\pi(\cdot|s)$使得能够最大化期望累计收益$\mathbb{E}[\
3 Model-Free中的基础技术
Model-Free中的基础技术:蒙特卡洛、on/off-policy、时许差分、TD(n)、资格迹
4 REINFORCE策略梯度
策略梯度REINFORCE 理论介绍 策略梯度是一个非常直观的方法。为什么说很直观,因为它直接尝试用神经网络拟合policy,然后优化目标也直接就是期望累计收益。 用神经网络拟合policy,具体说,
5 PPO
策略梯度 PPO 基本理论 回顾REINFORCE,使用神经网络拟合policy,优化目标为$\mathbb{E}[R(\tau)\nabla \sum \log \pi_\theta(s,a)]$,
6-DQN
DQN理论介绍 回顾Q函数的基于Q函数的策略改进 首先回顾第二章中$Q$函数的定义以及策略改进的思路。 Q函数的定义: 在$S$状态下执行$A$,之后按照$\pi$执行,得到的期望累计收益为$Q^\p
7-AC
AC和A2C 前面分别介绍了PolicyGradient(REINFORCE和PPO)以及DQN算法。这两个分别是policy-based(actor)和value-based(critic)算法。a