可 - 用户4391540458257的收藏集 - 掘金

可

用户4391540458257

更多收藏集

2篇文章 · 0订阅

深度强化学习系列：Soft Actor-Critic（SAC）算法原理及代码解析

柔性 Actor-Critic（Soft Actor-Critic，SAC）算法采用了最大化熵的想法。学习的目标是最大化熵正则化的累积奖励而不只是累计奖励，从而鼓励更多的探索。

夏野了
2年前
4.6k
4
1

深度强化学习系列: Actor-Critic(AC)算法原理及代码详解

为了解决 High Variance 和 High bias 之间的矛盾，可以把它们结合在一起，利用value based 和 policy based 两类方法各自的优势,就有了集大成的 AC类方法

夏野了
2年前
3.9k
5
4