首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
小菜羊
掘友等级
计算机科学与技术硕士在读
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
小菜羊
计算机科学与技术硕士在读
·
4年前
关注
强化学习入门8—深入理解DDPG
本文是强化学习入门系列的第八篇,前面我们讲Actor-Critic时提到了DDPG。DDPG是google DeepMind团队提出的一种用于输出确定性动作的算法。...
2
评论
分享
小菜羊
计算机科学与技术硕士在读
·
4年前
关注
强化学习入门7—Actor-Critic
本文是强化学习入门系列的第七篇,介绍一种结合了策略梯度和时序差分的算法——Actor-Critic即演员评论家算法。...
0
评论
分享
小菜羊
计算机科学与技术硕士在读
·
4年前
关注
强化学习入门6—Policy Gradient策略梯度
本文是强化学习入门系列的第六篇,将介绍一种有别于前面Q-learning这些基于价值的算法——策略梯度。...
1
评论
分享
小菜羊
计算机科学与技术硕士在读
·
4年前
关注
强化学习入门5—一文带你了解DQN
本文是强化学习入门系列的第五篇。我们前面介绍了Q-learning,今天介绍一个深度版的Q-learning。...
2
评论
分享
小菜羊
计算机科学与技术硕士在读
·
4年前
关注
强化学习入门4—Q-learning和Sarsa
本文是强化学习入门系列的第4篇,主要介绍强化学习当中非常常见的两个时序差分算法:Q-learning和Sarsa。...
4
评论
分享
小菜羊
关注了标签
机器学习
计算机科学与技术硕士在读
小菜羊
关注了标签
设计模式
计算机科学与技术硕士在读
小菜羊
关注了标签
强化学习
计算机科学与技术硕士在读
小菜羊
关注了
掘金酱
计算机科学与技术硕士在读
小菜羊
计算机科学与技术硕士在读
·
4年前
关注
强化学习入门3—动态规划
本文为强化学习入门系列的第三篇,主要介绍如何通过动态规划来求解贝尔曼最优方程。本节将详细介绍策略迭代、价值迭代两种方法。...
0
评论
分享
小菜羊
计算机科学与技术硕士在读
·
4年前
关注
强化学习入门2—初识MDP
本文为强化学习入门系列的第二篇,主要介绍强化学习中非常重要的理论框架—— MDP 马尔可夫决策过程。...
0
评论
分享
小菜羊
计算机科学与技术硕士在读
·
4年前
关注
强化学习入门1—多臂老虎机问题
本节是强化学习入门系列的第一篇,主要是对sutton大神的《强化学习》这本书的相关内容做了一些笔记,简单介绍了bandits问题的解决思路。...
1
评论
分享
小菜羊
关注了标签
深度学习
计算机科学与技术硕士在读
小菜羊
关注了标签
人工智能
计算机科学与技术硕士在读
小菜羊
关注了标签
Python
计算机科学与技术硕士在读
小菜羊
关注了标签
程序员
计算机科学与技术硕士在读
小菜羊
关注了标签
算法
计算机科学与技术硕士在读
小菜羊
关注了标签
面试
计算机科学与技术硕士在读
小菜羊
关注了标签
GitHub
计算机科学与技术硕士在读
个人成就
文章被点赞
27
文章被阅读
32,705
掘力值
853
关注了
4
关注者
11
收藏集
0
关注标签
10
加入于
2021-08-05