首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Lamorak
掘友等级
学生
|
USTC
尝试并努力去做一个更好的DataScience相关工作者,喜欢跑步,积极生活
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
226
文章 206
沸点 20
赞
226
返回
|
搜索文章
赞
文章( 206 )
沸点( 20 )
Cycle-Consistent VAE 论文阅读
0 论文信息 在之前阅读的那篇解决强化学习泛化性能的 LUSR 中就以这篇论文提出的 Cycle-Consistent Variation Auto-Encoder
LUSR 论文阅读
0 论文信息 最近看看前人是怎么做强化学习中 visual transfer 的工作,在此基础之上看看有哪些可以将自己思路进行落地的地方。
因果强化学习综述(下)
目录与链接 因果强化学习综述(上) 因果强化学习综述(下) 4.具有未知因果信息的CRL 在本小节中,我们对因果强化学习 (CRL) 方法进行回顾,其中因果信息是未知的,需要事先学习。
因果强化学习综述(上)
0.综述信息和个人感想 最近看看因果强化学习的工作,希望能有一些灵感。为了快速快明白,采用通篇大部分翻译+个人理解的方式,希望能有所帮助。
SAC 论文阅读
0 论文信息 1 对于 SAC 的逐步解析 传统的强化学习可以简单认为其是最大化奖励的预期总和是
DBC 论文阅读补充
0 引言 一开始读 DBC 的论文感觉很多都不懂,于是就想着先从强化学习对应部分 (TD 算法部分) 进行学习,然后再回过头来看论文。但是读完论文后仍发现有很多的基础概念不懂,一开始只是去搜集自己
DBC 论文阅读
0 论文信息 1 文章简介 一开始关注这个方法是因为其将 Invariant Representation 也应用到了强化学习的视觉任务之中。但是强化学习在成功识别到目标特征之后仍需要相应的反馈来
从马尔可夫决策到 DQN 算法族(下)
3.DQN 算法 在之前的 Q-learning 算法中,我们以矩阵的方式建立了一张存储每个状态下所有动作 $Q$ 值的表格。表格中的每一个动作价值 $Q(s,a)$ 表示在状态 $s$ 下选择动
从马尔可夫决策到 DQN 算法族(上)
1.马尔可夫决策过程 (Markov Decision Process) 1.1 马尔可夫过程的基本概念和性质 1.1.1 随机过程 概率论的研究对象是静态的随机现象,而随机过程
CURL 论文阅读
0.论文信息和个人感想 1.背景信息 论文背景: 运用深度神经网络的表达能力和长期的分值分配能力,已经可以实现从高维观测 (如像素) 中执行复杂控制任务的智能代理。然而,从原始像素进行强化学习的样本效
下一页
个人成就
文章被点赞
359
文章被阅读
32,935
掘力值
1,672
关注了
10
关注者
32
收藏集
0
关注标签
9
加入于
2022-03-24