首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Dingyuan
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
49
文章 49
沸点 0
赞
49
返回
|
搜索文章
最新
热门
7-AC
AC和A2C 前面分别介绍了PolicyGradient(REINFORCE和PPO)以及DQN算法。这两个分别是policy-based(actor)和value-based(critic)算法。a
6-DQN
DQN理论介绍 回顾Q函数的基于Q函数的策略改进 首先回顾第二章中$Q$函数的定义以及策略改进的思路。 Q函数的定义: 在$S$状态下执行$A$,之后按照$\pi$执行,得到的期望累计收益为$Q^\p
2 球箱模型
本章研究球放入箱子的过程,一个是从随机视角切入的,另一个是从计数视角切入的。 随机视角 模型概述 $m$个球扔进$n$个盒子,每个球进入等可能独立地扔进任何一个盒子。
1 概率基础
0 内容提要 本文覆盖概率与计算第二版Chap1-4,9的内容。 这5章内容比较基础,涉及: 理论 概率的基本概念 交、并、贝叶斯、全概率计算公式 期望、方差、中位数等数字特征 Jensen不等式、M
5 PPO
策略梯度 PPO 基本理论 回顾REINFORCE,使用神经网络拟合policy,优化目标为$\mathbb{E}[R(\tau)\nabla \sum \log \pi_\theta(s,a)]$,
4 REINFORCE策略梯度
策略梯度REINFORCE 理论介绍 策略梯度是一个非常直观的方法。为什么说很直观,因为它直接尝试用神经网络拟合policy,然后优化目标也直接就是期望累计收益。 用神经网络拟合policy,具体说,
3 Model-Free中的基础技术
Model-Free中的基础技术:蒙特卡洛、on/off-policy、时许差分、TD(n)、资格迹
1 RL基本建模
RL研究的基本问题 直观框架与基本概念 RL建模非常直观,他建模了智能体agent和环境environment不断交互的过程。 1 智能体agent:内部维护了一个策略policy,他能够基于对环境的
2 Model-Based方法:策略迭代与价值迭代
Model-Based方法:策略迭代与价值迭代 我们已经知道,RL就是在给定了环境$p(s',r|s,a)$的情况下,求$\pi(\cdot|s)$使得能够最大化期望累计收益$\mathbb{E}[\
个人成就
文章被点赞
201
文章被阅读
23,416
掘力值
885
关注了
0
关注者
4
收藏集
0
关注标签
15
加入于
2023-01-12