基本概念
-
智能体(Agent)
智能体是决策主体,根据环境状态选择动作,并根据反馈更新策略。 -
环境(Environment)
环境是智能体所处的世界,接收动作并返回奖励和新状态。 -
状态(State)
状态是环境的当前表现,包含决策所需的信息。状态可以是连续的(如机器人的位置和速度)或离散的(如棋盘上的棋子位置) -
动作(Action)
动作是智能体在状态下可采取的行为。 -
奖励(Reward)
奖励是环境对智能体行为的反馈,衡量行为表现。 -
策略(Policy)
策略是智能体选择动作的规则,定义了在给定状态下采取的动作。策略可以是确定性的(Deterministic),也可以是随机性的(Stochastic)。 -
最终目的
RL的最终目的是找到一个策略,使得智能体能够在任何给定的环境状态下,选择出最优的行动,从而最大化其在整个任务过程中获得的总奖励。
强化学习的独特性
有监督学习
- 目标:找到最优模型,使其在训练数据集上的损失最小化。
- 公式:
强化学习
- 目标:找到最优策略,使其在与环境交互中获得的奖励最大化。
- 公式:
优化途径的不同
-
有监督学习:
- 数据分布是固定的:训练数据是预先给定的,模型的目标是拟合这些数据。
- 目标函数是变化的:通过调整模型参数来优化模型本身。
-
强化学习:
- 数据分布是动态的:智能体通过与环境的交互生成数据,策略的改变会影响数据的分布(智能体在环境中可能遇到的所有状态、动作和奖励的分布)。
- 目标函数是固定的:奖励函数是预先定义的,强化学习的目标是通过调整策略来最大化奖励的期望。
-
总结
-
强化学习:目标是优化策略(Policy),使得智能体能够最大化累积奖励。
-
有监督学习:寻找一个模型,在给定的数据分布(环境)下,损失最小。
-