首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
强化学习相关
Lamorak
创建于2023-10-02
订阅专栏
将强化学习部分的学习进行相关的规整
等 1 人订阅
共14篇文章
创建于2023-10-02
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
SGQN 论文阅读
0 论文信息 1.介绍 在本项工作中,作者提出了一种新颖的方法,该方法鼓励智能体有效地识别关键输入像素,并加强策略对这些像素的依赖性。
SRM 论文阅读
0.SRM 的论文信息 1.介绍 介绍中提到了传统强化学习并不存在测试与训练中的分布的差距 (gap),同时也用图 1 详细展示了图像识别任务与强化学习任务中对于图像处理要求的不同。
PPO 论文阅读
0 论文信息 PPO (Proximal Policy Optimization Algorithms) 这篇工作之前就大概听说过,但是一直没有去看,刚好也属于 Actor-Critic 算法族中
WAPPO 论文阅读
0 论文信息 1 相关工作和背景 强化学习涉及顺序决策制定 : 一个强化学习主体存在于一个世界 (环境) 中,必须基于对世界 (状态) $s$ 的一些信息采取行动 $a$。这导致环境提供下一个状态
DARC 论文阅读
0 论文信息 ICLR 的论文,感觉应该比之前读的 AAAI 的论文有意思一些,为了方便易懂一些继续把综述放上来,替代介绍部分。以及文中很喜欢用 dynamics (动力学) 一词来进行叙述
LUSR 论文阅读
0 论文信息 最近看看前人是怎么做强化学习中 visual transfer 的工作,在此基础之上看看有哪些可以将自己思路进行落地的地方。
因果强化学习综述(下)
目录与链接 因果强化学习综述(上) 因果强化学习综述(下) 4.具有未知因果信息的CRL 在本小节中,我们对因果强化学习 (CRL) 方法进行回顾,其中因果信息是未知的,需要事先学习。
因果强化学习综述(上)
0.综述信息和个人感想 最近看看因果强化学习的工作,希望能有一些灵感。为了快速快明白,采用通篇大部分翻译+个人理解的方式,希望能有所帮助。
SAC 论文阅读
0 论文信息 1 对于 SAC 的逐步解析 传统的强化学习可以简单认为其是最大化奖励的预期总和是
DBC 论文阅读补充
0 引言 一开始读 DBC 的论文感觉很多都不懂,于是就想着先从强化学习对应部分 (TD 算法部分) 进行学习,然后再回过头来看论文。但是读完论文后仍发现有很多的基础概念不懂,一开始只是去搜集自己
DBC 论文阅读
0 论文信息 1 文章简介 一开始关注这个方法是因为其将 Invariant Representation 也应用到了强化学习的视觉任务之中。但是强化学习在成功识别到目标特征之后仍需要相应的反馈来
从马尔可夫决策到 DQN 算法族(下)
3.DQN 算法 在之前的 Q-learning 算法中,我们以矩阵的方式建立了一张存储每个状态下所有动作 $Q$ 值的表格。表格中的每一个动作价值 $Q(s,a)$ 表示在状态 $s$ 下选择动
从马尔可夫决策到 DQN 算法族(上)
1.马尔可夫决策过程 (Markov Decision Process) 1.1 马尔可夫过程的基本概念和性质 1.1.1 随机过程 概率论的研究对象是静态的随机现象,而随机过程
CURL 论文阅读
0.论文信息和个人感想 1.背景信息 论文背景: 运用深度神经网络的表达能力和长期的分值分配能力,已经可以实现从高维观测 (如像素) 中执行复杂控制任务的智能代理。然而,从原始像素进行强化学习的样本效