#青训营 x 字节后端训练营#
PG

直接用神经网络去拟合策略函数

DPG

拟合的策略不是一个动作概率分布,而是一个确定性的策略

优势:在选取某状态下最优动作时,无需遍历所有动作,只需根据函数π(s)即可得到

DDPG

结合lDPG、DQN、和AC框架的思想,在用神经网络去拟合策略函数的基础上,再用神经网络去学习Q函数。因为AC框架包含两个部分,且DQN又是双网络的,故一共有4个网络:
展开
评论