首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
一九零零
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
36
文章 36
沸点 0
赞
36
返回
|
搜索文章
一九零零
赞了这篇文章
Dingyuan
2年前
关注
2 Model-Based方法:策略迭代与价值迭代
Model-Based方法:策略迭代与价值迭代 我们已经知道,RL就是在给定了环境$p(s',r|s,a)$的情况下,求$\pi(\cdot|s)$使得能够最大化期望累计收...
4
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
1 RL基本建模
RL研究的基本问题 直观框架与基本概念 RL建模非常直观,他建模了智能体agent和环境environment不断交互的过程。 1 智能体agent:内部维护了一个策略po...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
3 Model-Free中的基础技术
Model-Free中的基础技术:蒙特卡洛、on/off-policy、时许差分、TD(n)、资格迹...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
4 REINFORCE策略梯度
策略梯度REINFORCE 理论介绍 策略梯度是一个非常直观的方法。为什么说很直观,因为它直接尝试用神经网络拟合policy,然后优化目标也直接就是期望累计收益。 用神经网...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
5 PPO
策略梯度 PPO 基本理论 回顾REINFORCE,使用神经网络拟合policy,优化目标为$\mathbb{E}[R(\tau)\nabla \sum \log \pi_...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
5 蒙特卡洛
蒙特卡洛 基本思想 构造一个采样方式,使得对某个统计量的估计恰好是要求的结果。 $(\epsilon, \delta)$近似:对V的估计满足$\Pr[|X-V|\le \e...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
4 马尔可夫
基本概念 随机过程$X(t)$是随机变量的集合。根据$t$的取值和$X$的取值特点,可以分为离散时间、连续时间、离散状态、连续状态 马尔科夫性(MP):$Pr[X_t|X_...
3
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
7-AC
AC和A2C 前面分别介绍了PolicyGradient(REINFORCE和PPO)以及DQN算法。这两个分别是policy-based(actor)和value-bas...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
6-DQN
DQN理论介绍 回顾Q函数的基于Q函数的策略改进 首先回顾第二章中$Q$函数的定义以及策略改进的思路。 Q函数的定义: 在$S$状态下执行$A$,之后按照$\pi$执行,得...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
2 内积空间
内积空间 把内积推广到一般线性空间 定义 在一般的线性空间的基础上,再增加如下4条 $\forall \theta \ne \alpha \in V, \langle\al...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
3 相似标准型
相似标准型 特征值与特征向量 $A\eta = \lambda \eta$,$(\lambda I - A)\eta=\theta$ 有非0解。因此$|\lambda I ...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
4 Hermit 二次型
Hermit 二次型 Hermit矩阵 对于复数变量$X$ $f(X)=X^HAX=\sum a_{ij}\bar{x_i} x_j$ 可以证明$f\in R \Leftr...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
5 矩阵函数
矩阵函数 范数 定义与例子 考虑$V$在数域$F$上的向量空间,定义$V$上的函数$v$,满足: $\forall \theta \ne \alpha, v(\alpha)...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
6 广义逆
## motivation 不是方阵、不满秩,还不能求逆了? ## definition A和G是复数域矩阵(不一定方,但G的形状和A转置一样),如果满足下面4条件,则$G...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
7 矩阵分解
## 满秩分解 详见00basic ## 满秩矩阵的QR分解 ### 理论 首先待分解矩阵$A$是一个满秩矩阵,所以他的列向量组$[\alpha_1, ..., \alph...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
00 矩阵求导
矩阵求导 main idea 函数的输出如果不是标量,那么求导就是对他的每一个输出分别求,于是问题退化成了输出是标量...
57
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
01 回归分析
线性回归 Model 对一条数据$x\in R^d$,然后相应的weight $w\in R^d$, bias是标量。预测值$y=x^T w+b$,一般为了方便,把x第一个...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
02 分类问题
分类 为什么不能直接用线性回归?-多分类不适用,penalize samples that are too correct 目标是接近1,但可能远大于1,影响了最优分类面的...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
03 反向传播
反向传播 高效求解深度神经网络中的梯度下降 notations 假设模型的输出层是一个向量$(a^l_1,a^l_2,...a^l_n)$,$l$表示层数,a表示经过激活函...
2
评论
分享
一九零零
赞了这篇文章
Dingyuan
2年前
关注
04 DL经验
Tips for Deep Learning 1 训练好网络后,先检验train set上的performance,再检验test set上的performance。 2 ...
2
评论
分享
下一页
关注了
1
关注者
0
收藏集
0
关注标签
0
加入于
2023-01-29