首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
NextWords
2年前
关注
屏蔽作者: NextWords
举报
#青训营 x 字节后端训练营#
PG
直接用神经网络去拟合策略函数
DPG
拟合的策略不是一个动作概率分布,而是一个确定性的策略
优势:在选取某状态下最优动作时,无需遍历所有动作,只需根据函数π(s)即可得到
DDPG
结合lDPG、DQN、和AC框架的思想,在用神经网络去拟合策略函数的基础上,再用神经网络去学习Q函数。因为AC框架包含两个部分,且DQN又是双网络的,故一共有4个网络:
展开
青训营-快乐出发
分享
评论
点赞
相关推荐
#青训营 x 字节后端训练营#
两眼一黑,请问面对数据表中字段的字典值太多有比CASE WHEN THEN很好的办法吗
0 赞 ·
7 评论
#青训营 x 字节后端训练营#
求学十余载终有一别。祝我前程似锦吧🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴🥴
16 赞 ·
10 评论
#青训营 x 字节后端训练营#
打算开发一个简洁的记账app,用uniapp,我主要负责后端,想找一个前端的掘友一起开发,有没有有兴趣的
6 赞 ·
15 评论