强化学习

强化学习

强化学习

强化学习

等 7 人订阅共28篇文章创建于2023-04-04

强化学习从基础到进阶-常见问题和面试必知必答[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

强化学习从基础到进阶-常见问题和面试必知必答[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战 1.核心词汇概率函数和奖励函数：概率函数定量地

2年前
297
点赞
评论

强化学习从基础到进阶-常见问题和面试必知必答[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

强化学习从基础到进阶-案例与实践[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

强化学习从基础到进阶-案例与实践[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战策略最简单的表示是查找表（look-up table），即表

2年前
1.3k
点赞
评论

强化学习从基础到进阶-案例与实践[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

强化学习从基础到进阶-常见问题和面试必知必答[2]：马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

强化学习从基础到进阶-常见问题和面试必知必答[2]：马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

2年前
1.1k
1
评论

强化学习从基础到进阶-常见问题和面试必知必答[2]：马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

强化学习从基础到进阶-案例与实践[2]：马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

# 强化学习从基础到进阶-案例与实践[2]：马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代图 2.1 介绍了强化学习里面智能体与环境之间的交互，智能体得到环境的状态后，它会采取动作，并把这个采取的

2年前
717
点赞
评论

强化学习从基础到进阶-案例与实践[2]：马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.强化学习核心概念强化学习（reinforcement le

2年前
694
点赞
评论

强化学习从基础到进阶-常见问题和面试必知必答[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

强化学习从基础到进阶-案例与实践[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

强化学习从基础到进阶-案例与实践[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验 1.1 强化学习概述强化学习（reinforcement learning

2年前
797
1
评论

强化学习从基础到进阶-案例与实践[1]：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

强化学习基础篇[3]：DQN、Actor-Critic详细讲解

强化学习基础篇[3]：DQN、Actor-Critic详细讲解 1.DQN详解 1.1 DQN网络概述及其创新点在之前的内容中，我们讲解了Q-learning和Sarsa算法。在这两个算法中，需要用

2年前
866
1
评论

强化学习基础篇[2]：SARSA、Q-learning算法简介、应用举例、优缺点分析

强化学习基础篇[2]：SARSA、Q-learning算法简介、应用举例、优缺点分析 1.SARSA SARSA（State-Action-Reward-State-Action）是一个学习马尔可夫决

3年前
325
点赞
评论

强化学习基础篇【1】：基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法

强化学习基础篇【1】：基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法 1.强化学习基础知识点智能体（agent）：智能体是强化学习算法的主体，它能够根据经验做出主观判断

3年前
610
1
2