首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
安可可可可
掘友等级
学生
研究方向:强化学习、多智能体强化学习
获得徽章 5
动态
文章
专栏
沸点
收藏集
关注
作品
赞
49
文章 37
沸点 12
赞
49
返回
|
搜索文章
最新
热门
强化学习—PPO(Proximal Policy Optimization)算法原理及实现
近端策略优化(PPO)算法是OpenAI在2017提出的一种强化学习算法,本文将从PPO算法的基础入手,理解从传统策略梯度算法直到PPO算法的演进过程,以及算法迭代过程中的优化细节。
多智能体强化学习——超详细的MADDPG原理及代码实现
本文讲解多智能体强化学习(Multi-agent Reinforcement Learning,MARL)中最最经典的一篇论文MADDPG,以及它的复现,超详细的!大家往下看吧
一文通俗讲解什么是元学习(Meta-Learning)
什么是元学习呢? 元学习通俗的来说,就是去学习如何学习(Learning to learn),掌握学习的方法,有时候掌握学习的方法比刻苦学习更重要!
强化学习—基于DQN的各种改进算法原理和实现(Rainbow模型)
本篇文章继续介绍与DQN相关的算法,这些算法都是基于DQN的扩展算法,他们从不同的角度解决了DQN中存在的问题,也获得了更好的效果。
从零详细解读什么是Transformer模型
Transformer由论文《Attention is All You Need》提出,在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。
强化学习—DQN(Deep Q-Network)算法原理加代码实现
DQN算法是强化学习中最经典的算法之一,是DeepMind发表在nature上的第一篇论文,有很多算法在DQN上进行改进
个人成就
文章被点赞
40
文章被阅读
12,706
掘力值
372
关注了
4
关注者
24
收藏集
0
关注标签
4
加入于
2022-09-19