Lamorak

学生 | USTC

尝试并努力去做一个更好的DataScience相关工作者，喜欢跑步，积极生活

赞

226

|

搜索文章

赞

文章( 206 ) 沸点( 20 )

Cycle-Consistent VAE 论文阅读

0 论文信息在之前阅读的那篇解决强化学习泛化性能的 LUSR 中就以这篇论文提出的 Cycle-Consistent Variation Auto-Encoder

Lamorak
1年前
294
2
评论

LUSR 论文阅读

0 论文信息最近看看前人是怎么做强化学习中 visual transfer 的工作，在此基础之上看看有哪些可以将自己思路进行落地的地方。

Lamorak
1年前
474
2
评论

因果强化学习综述(下)

目录与链接因果强化学习综述(上) 因果强化学习综述(下) 4.具有未知因果信息的CRL 在本小节中，我们对因果强化学习 (CRL) 方法进行回顾，其中因果信息是未知的，需要事先学习。

Lamorak
1年前
805
1
评论

因果强化学习综述(上)

0.综述信息和个人感想最近看看因果强化学习的工作，希望能有一些灵感。为了快速快明白，采用通篇大部分翻译+个人理解的方式，希望能有所帮助。

Lamorak
1年前
914
2
评论

SAC 论文阅读

0 论文信息 1 对于 SAC 的逐步解析传统的强化学习可以简单认为其是最大化奖励的预期总和是

Lamorak
2年前
511
1
评论

DBC 论文阅读补充

0 引言一开始读 DBC 的论文感觉很多都不懂，于是就想着先从强化学习对应部分 (TD 算法部分) 进行学习，然后再回过头来看论文。但是读完论文后仍发现有很多的基础概念不懂，一开始只是去搜集自己

Lamorak
2年前
319
2
1

DBC 论文阅读

0 论文信息 1 文章简介一开始关注这个方法是因为其将 Invariant Representation 也应用到了强化学习的视觉任务之中。但是强化学习在成功识别到目标特征之后仍需要相应的反馈来

Lamorak
2年前
787
2
1

从马尔可夫决策到 DQN 算法族(下)

3.DQN 算法在之前的 Q-learning 算法中，我们以矩阵的方式建立了一张存储每个状态下所有动作 $Q$ 值的表格。表格中的每一个动作价值 $Q(s,a)$ 表示在状态 $s$ 下选择动

Lamorak
2年前
151
1
1

从马尔可夫决策到 DQN 算法族(上)

1.马尔可夫决策过程 (Markov Decision Process) 1.1 马尔可夫过程的基本概念和性质 1.1.1 随机过程概率论的研究对象是静态的随机现象，而随机过程

Lamorak
2年前
175
1
1

CURL 论文阅读

0.论文信息和个人感想 1.背景信息论文背景: 运用深度神经网络的表达能力和长期的分值分配能力，已经可以实现从高维观测 (如像素) 中执行复杂控制任务的智能代理。然而，从原始像素进行强化学习的样本效

Lamorak
2年前
86
1
评论

个人成就

文章被点赞 359

文章被阅读 35,173

掘力值 1,677

加入于

2022-03-24