首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
微笑小星
掘友等级
广东工业大学硕士在读
强化学习的信仰者,游戏开发的爱好者
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
强化学习之SAC
SAC可以参考博客:https://blog.csdn.Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor,2018年8月发表。Soft...
强化学习之TD3(pytorch实现)
参考视频:https://www.bilibili.com/video/BV1EK41157fD/?spm_id_from=333.788.recommend_more_video.原论文:https://arxiv.org/abs/1802.其中SAC和TD3算是目前很好的两个...
强化学习之DQN超级进化版Rainbow
阅读本文前可以先了解我前三篇文章《强化学习之DQN》《强化学习之DDQN》、《强化学习之 Dueling DQN》。Rainbow结合了DQN算法的6个扩展改进,将它们集成在同一个智能体上,其中包括DDQN,Dueling DQN,Prioritized Replay、Multi...
强化学习之DQN代码(pytorch实现)
本代码取自周博磊强化学习课程https://space.bilibili.源码:https://download.csdn.此处程序个人感觉过多过乱,应整理出属于自己风格的代码结构,这是编程实现必不可少的环节。import torch.import torch.import to...
强化学习之PPO
阅读本文前先了解TRPO算法有助于理解,我对此也写过博客:https://blog.csdn.参考李宏毅老师的视频:https://www.bilibili.PPO,全名Proximal Policy Optimization,近端策略优化算法。PPO算法是一种新型的Policy...
强化学习之TRPO
视频链接:https://www.youtube.J(θ)。L(θ∣θold)最大化。这是TRPO的最重要的公式。...s_1,a_1,r_1,s_2,a_2,r_2,...s1,a1,r1,s2,a2,r2,...L(θ∣θold)=n1i=1∑nπ(ai...
强化学习之AC、A2C和A3C
阅读本文可参考我以前的文章《强化学习实践教学》https://tianjuewudi.gitee.io/2021/07/16/qiang-hua-xue-xi-shi-jian-jiao-xue/#toc-heading-29,其中的连续动作空间上求解RL章节是本文的基础,其中的...
强化学习之Dueling DQN
Dueling DQN的思想是把神经网络中Q价值的输出分成两部分,第一部分是状态价值V,这部分价值由状态直接决定和Action无关。第二部分就是动作价值和状态价值的差值A,每一个Action都存在一个差值。这两部分构成了倒数第二层的神经网络,节点数为Action数+1。然后最后一...
强化学习之DDQN
知识基础DQN参考我的博文:https://tianjuewudi.gitee. 我们利用神经网络来代替表格法,我们可以输入S并输出多个Q,每个Q对应一个A。神经网络只需要储存有限的网络参数,我们的任务就是不断调整这些参数,使得输入输出符合我们的预期,而且状态可以泛化,相似的状...
关于手写数字MINIST数据集识别的究极完整版
from torch.utils.from torch.utils.import torch.nn.import scipy.import matplotlib.xy = np.loadtxt(filepath, delimiter=',', dtype=np.#self.len...
下一页
个人成就
文章被点赞
6
文章被阅读
18,158
掘力值
421
关注了
0
关注者
2
收藏集
0
关注标签
5
加入于
2022-06-28