首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
强化学习
宝贝儿好
创建于2026-01-28
订阅专栏
强化学习系列文章
暂无订阅
共5篇文章
创建于2026-01-28
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
【强化学习】第六章:无模型控制:在轨MC控制、在轨时序差分学习(Sarsa)、离轨学习(Q-learning)
从知识点上看,本篇是承接前五章的所有重点和难点!所以你前面知识点必须非常熟悉,本篇才能顺水推舟的理解了。尽管本篇我已经尽力回溯之前的知识点,但你还是得没有逻辑断点,才能看懂本篇。
【强化学习】第五章:无模型评估:蒙特卡洛学习、时序差分学习、TD(λ)
无模型(Model-free)是指现实问题是一个非完备的MDP,我们只能实实在在的去打几步或者打完整个游戏,然后得到一些s,a,r序列,然后通过这些序列去计算状态价值。
【强化学习】第四章:动态规划(DP)
类似梯度下降算法就是为了求解损失函数的最小值一样,动态规划法也只是求解价值函数的一种方法。,所以本篇重点讲怎么用动态规划求解价值函数,而非动态规划法背后的理论和数学推导。
【强化学习】第三章:马尔可夫决策过程(MDP)、贝尔曼期望方程、贝尔曼最优方程
本篇非常基础也非常难,但是本篇是整个强化学习的基石,务必非常清晰得弄懂本篇的所有知识点,后面的学习才会一马平川。
【强化学习】第一章:强化学习知识体系介绍
DeepMind大卫·希尔弗在youtube发布了一套强化学习视频公开课,系统全面地介绍了强化学习的各种思想、实现算法,对理解强化学习来说是一套非常好的入门教程。本系列文章是参考这套课程体系整理而来。