theAgeOfFrost

赞

0

|

搜索文章

[HRL]Model-Free HRL

代码实现：Python，使用的库有Pytorch, NumPy, Opencv, and SciPy，网址为https://github.com/root-master/unified-hrl。通常的强化学习方法，在涉及巨大的状态空间和稀疏延时奖励反馈的大规模应用上遭受挑战。…

5年前
261
点赞
评论

在sparse feedback的复杂环境中学习目标导向的行为对人工智能来说是一个基本挑战。在这种设定下进行学习,需要agent在spatio-temporal abstractions的多个层次上表示知识，并有效地探索环境。最近非线性函数逼近和强化学习的结合使得在学习在高维…

5年前
720
点赞
评论

强化学习笔记1

Model-free：不对环境建模，环境反馈什么是什么。 Model-based：尝试对环境进行建模逼近。 Policy vs. Value Policy based：输出下一步要采取的各种动作的概率，根据概率进行行动。 Value based：输出的是所有动作的价值, 根据最…

5年前
136
点赞
评论

个人成就

文章被阅读 1,117

加入于

2020-07-04