首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
小小何先生
掘友等级
硕二在读
|
公众号:小小何先生
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
25
文章 24
沸点 1
赞
25
返回
|
搜索文章
小小何先生
硕二在读 @公众号:小小何先生
·
4年前
关注
【Nature论文浅析】基于模型的AlphaGo Zero
规划planning一直都是人工智能研究领域中,人们追逐的一个比较难的研究点,基于树的规划算法,像AlphaGo这类算法已经取得了巨大的成功,然而基于树模型的规划算法需要一...
3
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
4年前
关注
【ACM2020】少样本学习综述
这里只是对这篇文章的核心思想部分进行了总结归纳思考,具体的应用部分并未详细列出。 机器学习中很大一部分的核心问题都在于误差分析,少样本也不例外,最核心的东西就是对误差的分析...
1
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
4年前
关注
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
提出一种基于基于DQN replay dataset的offline强化学习算法。用Random Ensemble Mixture (REM)一种更加鲁棒的Q-Learni...
0
1
分享
小小何先生
硕二在读 @公众号:小小何先生
·
4年前
关注
【RL-GAN-Net】强化学习控制GAN网络,用于实时点云形状的补全。
用强化学习控制GAN网络,以使得GAN更快,更鲁棒。将其用于点云数据生成。全网第一次用RL控制GAN。通过数据驱动的方法填补三维数据中的数据缺失。 预训练阶段,训练一个自编...
1
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
4年前
关注
【ICLR2020】看未知观测:一种简单的蒙特卡洛并行化方法
提出一种并行化的MCTS算法,该算法实现了线性加速,并随着Workers的增加,性能只有些许损失。 MCTS的缺点就是无法并行,但是并行之后没有性能损失是比较困难的,主要的...
0
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
4年前
关注
【NIPS 2017】基于深度强化学习的想象力增强智能体
最近也是有很多文章聚焦于基于模型的强化学习算法,一种常见的做法就是学一个model,然后用轨迹优化的方法求解一下,而这种方法并没有考虑与真实环境的差异,导致你求解的只是在你...
0
2
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
【NIPS 2018】循环World模型促进策略演变
从world model中学一个policy,并将迁移到real world。 人类通常是通过自己的感官数据建立自己对这个世界的认知模型。比如看同一张图片,不同的人能够得到...
0
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
如何简单易懂地理解变分推断(variational inference)?
正在学,把网上优质文章整理了一下。 但posterior distribution 求解用贝叶斯的方法是比较困难的,因为我们需要去计算,而通常会是一个高维的随机变量,这个积...
2
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型
作者在这里所关心的是,智能体采样很难采样到那些表现性能比较好的样本,就是说有些状态动作对根本就采不到,因为很难去学习这么好的策略,但是人类可以很轻松的采样得到这些样本。但是...
2
1
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
【5分钟 Paper】(TD3) Addressing Function Approximation Error in Actor-Critic Methods
value-base的强化学习值函数的近似估计会过估计值函数(DQN),作者将Double Q-Learning处理过拟合的思想引入actor critic算法中。(过估计...
1
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
【5分钟 Paper】Continuous Control With Deep Reinforcement Learning
这篇文章将Deep Q-Learning运用到Deterministic Policy Gradient算法中。如果了解DPG的话,那这篇文章就是引入DQN改进了一下DPG...
0
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
【5分钟 Paper】Deterministic Policy Gradient Algorithms
stochastic policy的方法由于含有部分随机,所以效率不高,方差大,采用deterministic policy方法比stochastic policy的采样效...
0
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
Trust Region Policy Optimization (TRPO) 背后的数学原理
本文是自己的TRPO算法学习笔记,在数学原理推导核心部分附有自己的理解与解释。整篇文章逻辑清晰,思路顺畅。有想推导的同学可以一起学习。 TRPO和PPO都是基于Minori...
1
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
【5分钟 Paper】Asynchronous Methods for Deep Reinforcement Learning
在强化学习算法中agent所观测到的data是 non-stationary和strongly correlated的。通过设置memory的方式可以 reduces no...
0
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
【5分钟 Paper】Prioritized Experience Replay
Experience replay能够让强化学习去考虑过去的一些经验,在【1】这篇文章之前通常采用随机采样的方式在记忆库中采样。但是有一些记忆比较关键,因此随机采样的方式就...
0
评论
分享
小小何先生
关注了标签
TensorFlow
硕二在读 @公众号:小小何先生
小小何先生
关注了标签
神经网络
硕二在读 @公众号:小小何先生
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning
如果所有的动作值函数都被均匀地加上一个常数,似乎这不会对策略有什么影响。问题就在于当你有一个动作值函数过估计之后在加上探索和利用技术之后,那可能就会偏向于之前就过估计的动作...
0
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs
这篇论文最开始是15年提出来的,但最新的修订版本是17年的,下文所有内容都以17年版本为主。 如题目中所述,作者解决的就是部分可观测马尔可夫决策过程 (Partially-...
0
评论
分享
小小何先生
硕二在读 @公众号:小小何先生
·
5年前
关注
【5分钟 Paper】Playing Atari with Deep Reinforcement Learning
解决从高维传感器获取数据而端到端实现控制的难题(以前很多都是使用手工提取的特征)。所使用的例子:直接用图像数据学会控制Atari游戏,并且达到了人类水平。 在这之前已经有很...
0
评论
分享
下一页
个人成就
文章被点赞
66
文章被阅读
77,235
掘力值
1,376
关注了
5
关注者
586
收藏集
0
关注标签
11
加入于
2020-01-28