强化学习

强化学习

强化学习

强化学习（Reinforcement learning，RL）讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment) 里面去极大化它能获得的奖励。通过感知所处环境的状态(state) 对动作(action) 的反应(reward)，来指导更好的动作

等 6 人订阅共4篇文章创建于2023-05-15

强化学习—PPO（Proximal Policy Optimization）算法原理及实现

近端策略优化（PPO）算法是OpenAI在2017提出的一种强化学习算法，本文将从PPO算法的基础入手，理解从传统策略梯度算法直到PPO算法的演进过程，以及算法迭代过程中的优化细节。

2年前
11k
5
2

多智能体强化学习——超详细的MADDPG原理及代码实现

本文讲解多智能体强化学习（Multi-agent Reinforcement Learning,MARL）中最最经典的一篇论文MADDPG，以及它的复现，超详细的！大家往下看吧

2年前
12k
10
11

强化学习—基于DQN的各种改进算法原理和实现（Rainbow模型）

本篇文章继续介绍与DQN相关的算法，这些算法都是基于DQN的扩展算法，他们从不同的角度解决了DQN中存在的问题，也获得了更好的效果。

3年前
2.6k
4
5

强化学习—DQN(Deep Q-Network)算法原理加代码实现

DQN算法是强化学习中最经典的算法之一，是DeepMind发表在nature上的第一篇论文，有很多算法在DQN上进行改进

3年前
2.9k
9
6