强化学习 - piaoyun的收藏集 - 掘金

强化学习

更多收藏集

2篇文章 · 0订阅

强化学习总结01 基本概念

1. 概述强化学习是智能体（Agent）与环境（Environment）不断交互, 不断提高自己的决策能力的过程. 所学习的样本来自于与环境的交互。而非像传统机器学习的样本是现有的。。 2. 强化学习的组成回报值又称累积折扣奖励（cumulative discounte…

白话Python
5年前
1.8k
3
评论

强化学习总结02 马尔可夫决策过程

马尔可夫决策过程（Markov Decision Processes, MDPs）是对强化学习问题的数学描述。要求环境是全观测的。所以要求环境是全观测的，(如果是部分观测的话，状态信息有缺失)。状态转移概率指从一个马尔可夫状态 s 跳转到后继状态 (successor s…

白话Python
5年前
3.1k
4
评论

强化学习总结02 马尔可夫决策过程