强化学习笔记1

2020-07-04 127 阅读1分钟

1 基本概念

Model
- Model-free：不对环境建模，环境反馈什么是什么。
- Model-based：尝试对环境进行建模逼近。
Policy vs. Value
- Policy based：输出下一步要采取的各种动作的概率，根据概率进行行动。
- Value based：输出的是所有动作的价值, 根据最高价值进行行动。
update
- Monte-carlo update：一个episode执行完才进行更新。
- Temporal-difference update：边执行边更新。
on/off policy
- on policy
- off policy