微笑小星

广东工业大学硕士在读

强化学习的信仰者，游戏开发的爱好者

赞

0

|

搜索文章

广东工业大学硕士在读

·

3年前

ML-Agents命令及配置大全

<trainer-config-file>是训练器配置 YAML 的文件路径。里面包含所有超参数值。<env_name>（可选）是包含要训练的代理的Unity 可执行文件的...

0

评论

广东工业大学硕士在读

·

3年前

Unity强化学习之ML-Agents的使用

Github下载链接：https://github.ML-Agents是游戏引擎Unity3D中的一个插件，也就是说，这个软件的主业是用来开发游戏的，实际上，它也是市面上用...

0

评论

广东工业大学硕士在读

·

3年前

多任务深度强化学习入门

多任务深度强化学习，英文Multi-Task Deep Reinforcement Learning ，简称MTDRL或MTRL。于MARL不同，它可以是单智能体多任务的情...

1

评论

广东工业大学硕士在读

·

3年前

多智能体强化学习之QMIX

MARL中如何表示和使用动作价值函数使得系统达到一个均衡稳态是多智能体系统的目标。Qa。这种方法不能明确表示智能体之间的相互作用，并且可能不会收敛，因为每个智能体的学习都...

0

评论

广东工业大学硕士在读

·

3年前

多智能体强化学习之MADDPG

对于MADDPG推荐的博客有：探秘多智能体强化学习-MADDPG算法原理及简单实现，里面包含代码实现。github代码（基于Tensorflow）：https://gith...

1

评论

广东工业大学硕士在读

·

3年前

分布式强化学习之IMPALA

参考内容：https://zhuanlan.zhihu.IMPALA全名Importance Weighted Actor-Learner Architecture，也就是...

1

评论

广东工业大学硕士在读

·

3年前

分布式强化学习之D4PG

D4PG全称Distributed Distributional Deterministic Policy Gradient，是总所周知的DDPG的分布式版本。因此学习D4...

0

评论

广东工业大学硕士在读

·

3年前

分布式强化学习（Distributed RL）入门

一般情况下我们做的论文课题都是小规模的，使用的都是一个相对较小的数据库，因此使用单机系统基本可以完成任务。但现实生活中的数据往往是巨量的，我们需要一个完整的分布式系统来处理...

0

评论

广东工业大学硕士在读

·

3年前

模仿学习（Imitation Learning）入门

在游戏中，我们往往有一个计分板准确定义事情的好坏程度。但现实中，定义Reward有可能是非常困难的，并且人定的reward也有可能存在许多意想不到的缺陷。在没有reward...

1

评论

广东工业大学硕士在读

·

3年前

model-based强化学习入门

之前介绍的算法例如DQN，DDPG，PPO都是**model-free（无模型）**的，这也是比较多人的研究领域，这些算法是智能体直接和环境互动获得数据，不需要拟合环境模型...

2

评论

广东工业大学硕士在读

·

3年前

强化学习之SAC

SAC可以参考博客：https://blog.csdn.Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinfor...

0

评论

广东工业大学硕士在读

·

3年前

强化学习之TD3（pytorch实现）

参考视频：https://www.bilibili.com/video/BV1EK41157fD/?spm_id_from=333.788.recommend_more_v...

0

1

广东工业大学硕士在读

·

3年前

强化学习之DQN超级进化版Rainbow

阅读本文前可以先了解我前三篇文章《强化学习之DQN》《强化学习之DDQN》、《强化学习之 Dueling DQN》。Rainbow结合了DQN算法的6个扩展改进，将它们集成...

0

评论

广东工业大学硕士在读

·

3年前

强化学习之DQN代码（pytorch实现）

本代码取自周博磊强化学习课程https://space.bilibili.源码：https://download.csdn.此处程序个人感觉过多过乱，应整理出属于自己风格的...

1

评论

广东工业大学硕士在读

·

3年前

强化学习之PPO

阅读本文前先了解TRPO算法有助于理解，我对此也写过博客：https://blog.csdn.参考李宏毅老师的视频：https://www.bilibili.PPO，全名P...

1

评论

广东工业大学硕士在读

·

3年前

强化学习之TRPO

视频链接：https://www.youtube.J(θ)。L(θ∣θold)最大化。这是TRPO的最重要的公式。...s_1,a_1,r_1,s_2,a_2,r_2,....

1

评论

广东工业大学硕士在读

·

3年前

强化学习之AC、A2C和A3C

阅读本文可参考我以前的文章《强化学习实践教学》https://tianjuewudi.gitee.io/2021/07/16/qiang-hua-xue-xi-shi-ji...

1

评论

广东工业大学硕士在读

·

3年前

强化学习之Dueling DQN

Dueling DQN的思想是把神经网络中Q价值的输出分成两部分，第一部分是状态价值V，这部分价值由状态直接决定和Action无关。第二部分就是动作价值和状态价值的差值A，...

0

评论

广东工业大学硕士在读

·

3年前

强化学习之DDQN

知识基础DQN参考我的博文：https://tianjuewudi.gitee. 我们利用神经网络来代替表格法，我们可以输入S并输出多个Q，每个Q对应一个A。神经网络只需...

0

评论

广东工业大学硕士在读

·

3年前

关于手写数字MINIST数据集识别的究极完整版

from torch.utils.from torch.utils.import torch.nn.import scipy.import matplotlib.xy = ...

0

评论

个人成就

文章被点赞 14

文章被阅读 23,689

加入于

2022-06-28