强化学习Reinforcement Learning 基本概念强化学习（Reinforcement Learning,

Reinforcement Learning

基本概念

强化学习（Reinforcement Learning, RL）的核心概念可简单概括为：一个机器人（Agent）在看到了一些信息（Observation）后，自己做出一个决策（Action），随即根据采取决策后得到的反馈（Reward）来进行自我学习（Learning）的过程。RL 的最终目标其实就是要让机器人（Agent）学会在一个给定「状态」下，选择哪一个「行为」是最优的。RL 的训练本质就是：探索 + 试错。

Policy-Based & Value Based

Policy Based：将每一个行为量化为「概率分布」，在训练的时候，好行为的概率值将被不断提高（向右走，0.9），差行为的概率将被不断降低（向上走，0.1）。当机器人在进行行为选择的时候，就会按照当前的概率分布进行采样，这样就实现了「多选择得分高的行为，少选择得分低的行为」。
Value Based：将每一个行为量化为「值」，在训练的时候，好行为的行为值将被不断提高（向右走，1分），差行为的行为值将被不断降低（向上走，-1）。当机器人在进行行为选择的时候会选择「行为值最大的动作」，这样也实现了「多选择得分高的行为，少选择得分低的行为」。