1 基本概念
- Model
- Model-free:不对环境建模,环境反馈什么是什么。
- Model-based:尝试对环境进行建模逼近。
- Policy vs. Value
- Policy based:输出下一步要采取的各种动作的概率,根据概率进行行动。
- Value based:输出的是所有动作的价值, 根据最高价值进行行动。
- update
- Monte-carlo update:一个episode执行完才进行更新。
- Temporal-difference update:边执行边更新。
- on/off policy
- on policy
- off policy