首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
小小何先生
掘友等级
硕二在读
|
公众号:小小何先生
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
25
文章 24
沸点 1
赞
25
返回
|
搜索文章
最新
热门
【Nature论文浅析】基于模型的AlphaGo Zero
规划planning一直都是人工智能研究领域中,人们追逐的一个比较难的研究点,基于树的规划算法,像AlphaGo这类算法已经取得了巨大的成功,然而基于树模型的规划算法需要一个完美的环境模型,这个条件在真实的世界中是很难被满足的。 基于模型的强化学习方法先学一个环境模型,然后基于…
【ACM2020】少样本学习综述
这里只是对这篇文章的核心思想部分进行了总结归纳思考,具体的应用部分并未详细列出。 机器学习中很大一部分的核心问题都在于误差分析,少样本也不例外,最核心的东西就是对误差的分析。按照机器学习的方式将few shot learning中的误差进行分解,然后进行分析。 然后通过empi…
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
提出一种基于基于DQN replay dataset的offline强化学习算法。用Random Ensemble Mixture (REM)一种更加鲁棒的Q-Learning算法增强模型的泛化能力。 深度学习的成功取决于大量地数据集,而强化学习却需要不断与环境交互进行学习。离…
【RL-GAN-Net】强化学习控制GAN网络,用于实时点云形状的补全。
用强化学习控制GAN网络,以使得GAN更快,更鲁棒。将其用于点云数据生成。全网第一次用RL控制GAN。通过数据驱动的方法填补三维数据中的数据缺失。 预训练阶段,训练一个自编码器,用于生成隐空间的表示,之后用这个去训练GAN网络。强化学习智能体用于选择合适的$z$向量,去合成隐空…
【ICLR2020】看未知观测:一种简单的蒙特卡洛并行化方法
提出一种并行化的MCTS算法,该算法实现了线性加速,并随着Workers的增加,性能只有些许损失。 MCTS的缺点就是无法并行,但是并行之后没有性能损失是比较困难的,主要的原因就是MCTS的探索-利用的平衡会依赖于之前的采样信息。作者提出一种新奇的并行化MCTS算法,WU-UC…
【NIPS 2017】基于深度强化学习的想象力增强智能体
最近也是有很多文章聚焦于基于模型的强化学习算法,一种常见的做法就是学一个model,然后用轨迹优化的方法求解一下,而这种方法并没有考虑与真实环境的差异,导致你求解的只是在你所学model上的求解。解决这种问题就是Dyna架构通过切换world model和real model来…
深度学习领域资源汇总清单【框架、数据集、期刊】
大多数时候,人们使用不同的深度学习框架和标准开发工具箱。(SDKs),用于实施深度学习方法,具体如下: 以下是常用于评估不同应用领域的深度学习方法的基准数据集列表。 Recently Introduced Datasets in Sept. 2016: Amazon datas…
如何简单易懂地理解变分推断(variational inference)?
正在学,把网上优质文章整理了一下。 但posterior distribution 求解用贝叶斯的方法是比较困难的,因为我们需要去计算,而通常会是一个高维的随机变量,这个积分计算起来就非常困难。在贝叶斯统计中,所有的对于未知量的推断(inference)问题可以看做是对后验概率…
【NIPS 2017】基于深度强化学习的想象力增强智能体
最近也是有很多文章聚焦于基于模型的强化学习算法,一种常见的做法就是学一个model,然后用轨迹优化的方法求解一下,而这种方法并没有考虑与真实环境的差异,导致你求解的只是在你所学model上的求解。解决这种问题就是Dyna架构通过切换world model和real model来…
伯克利,斯坦福,宾大联合发表:从观察和交互中学习预测模型
作者在这里所关心的是,智能体采样很难采样到那些表现性能比较好的样本,就是说有些状态动作对根本就采不到,因为很难去学习这么好的策略,但是人类可以很轻松的采样得到这些样本。但是这些样本也是存在一些问题的,比如是没有带注释的,他不会有描述说为什么这么做,如果像模仿学习那样利用这些样本…
下一页
个人成就
文章被点赞
63
文章被阅读
65,936
掘力值
1,329
关注了
5
关注者
587
收藏集
0
关注标签
11
加入于
2020-01-28