强学学习RL01 基本概念

149 阅读2分钟

基本概念

image.png

  1. 智能体(Agent)
    智能体是决策主体,根据环境状态选择动作,并根据反馈更新策略。

  2. 环境(Environment)
    环境是智能体所处的世界,接收动作并返回奖励和新状态。

  3. 状态(State)
    状态是环境的当前表现,包含决策所需的信息。状态可以是连续的(如机器人的位置和速度)或离散的(如棋盘上的棋子位置)

  4. 动作(Action)
    动作是智能体在状态下可采取的行为。

  5. 奖励(Reward)
    奖励是环境对智能体行为的反馈,衡量行为表现。

  6. 策略(Policy)
    策略是智能体选择动作的规则,定义了在给定状态下采取的动作。策略可以是确定性的(Deterministic),也可以是随机性的(Stochastic)。

  7. 最终目的
    RL的最终目的是找到一个策略,使得智能体能够在任何给定的环境状态下,选择出最优的行动,从而最大化其在整个任务过程中获得的总奖励。

强化学习的独特性

有监督学习

  • 目标:找到最优模型,使其在训练数据集上的损失最小化
  • 公式
  • 最优模型=argmin模型E(特征,标签)数据分布[损失函数(标签,模型(特征))]\text{最优模型} = \arg\min_{\text{模型}} \mathbb{E}_{(\text{特征,标签})\sim \text{数据分布}}[\text{损失函数}(\text{标签}, \text{模型}(\text{特征}))]

强化学习

  • 目标:找到最优策略,使其在与环境交互中获得的奖励最大化
  • 公式
  • 最优策略=argmax策略E(状态,动作)策略的占用度量[奖励函数(状态,动作)]\text{最优策略} = \arg\max_{\text{策略}} \mathbb{E}_{(\text{状态,动作})\sim \text{策略的占用度量}}[\text{奖励函数}(\text{状态}, \text{动作})]

优化途径的不同

  • 有监督学习

    • 数据分布是固定的:训练数据是预先给定的,模型的目标是拟合这些数据。
    • 目标函数是变化的:通过调整模型参数来优化模型本身。
  • 强化学习

    • 数据分布是动态的:智能体通过与环境的交互生成数据,策略的改变会影响数据的分布(智能体在环境中可能遇到的所有状态、动作和奖励的分布)。
    • 目标函数是固定的:奖励函数是预先定义的,强化学习的目标是通过调整策略来最大化奖励的期望。
  • 总结

    • 强化学习:目标是优化策略(Policy),使得智能体能够最大化累积奖励。

    • 有监督学习:寻找一个模型,在给定的数据分布(环境)下,损失最小。