机器学习 - 执器的收藏集 - 掘金

机器学习

更多收藏集

1篇文章 · 0订阅

强化学习—PPO（Proximal Policy Optimization）算法原理及实现

近端策略优化（PPO）算法是OpenAI在2017提出的一种强化学习算法，本文将从PPO算法的基础入手，理解从传统策略梯度算法直到PPO算法的演进过程，以及算法迭代过程中的优化细节。

安可可可可
2年前
10k
5
2