1.强化学习基本概念

200 阅读3分钟

1. 基本概念

1.1 状态(State)

  • 定义:状态是指agent相对于环境的状态。
  • 例子:假定在grid-world中,状态是agent所处的位置,共有9个状态s1,s2,,s9(s_1, s_2, \ldots, s_9)
  • 状态空间S=sii=19\mathcal{S} = {s_i}_{i=1}^9

1.2 动作(Action)

image.png

  • 定义:动作表示agent可以采取的行为。
  • 例子:共有5个动作a1,a2,a3,a4,a5a_1,a_2,a_3,a_4,a_5,分别表示向上、右、下、左、保持不动。
  • 动作空间A(si)=aii=15\mathcal{A}(s_i) = {a_i}_{i=1}^5

1.3 状态转移(State Transition)

  • 定义:agent采取一个动作,从一个状态转移到另一个状态的过程。

  • 例子:采取a2是向右不会触碰边界,到达s2s_2状态,采取a1会触碰边界保持s1s_1状态

    • s1a2s2s_1 \overset{a_2}{\rightarrow} s_2
    • s1a1s1s_1 \overset{a_1}{\rightarrow} s_1(触到边界)
  • 状态转移概率p(sksi,aj)=pp(s_k∣s_i,a_j)=p

1.4 策略(Policy)

  • 定义:策略决定了在某个状态下采取什么动作。

image.png

  • 例子

    • 确定性策略π(a1s1)=0\pi(a_1 \mid s_1) = 0
    • 随机策略π(a1s1)=0.6\pi(a_1 \mid s_1) = 0.6

1.4 奖励(Reward)

  • 定义:奖励是agent采取一个动作后获得的标量。

  • 例子

    • 正奖励:表示采取该动作得到了奖励。
    • 负奖励(惩罚) :表示采取该动作得到了惩罚。
    • 零奖励:表示没有惩罚或奖励。
  • 奖励设定

    • agent穿越边界:rbound=1r_{bound} = -1
    • agent进入禁止区域:rforbid=1r_{forbid} = -1
    • agent进入目标区域:rtarget=1r_{target} = 1
    • 否则:r=0r=0

reward依赖于当前的状态和action,而不是下一个状态,例子:(s1,a1)(s_1,a_1)(s1,a5)(s_1, a_5)得到的reward不应该相同。

1.6 轨迹(Trajectory)

  • 定义:轨迹是agent在环境中的一条序列(状态-动作-奖励链)。
  • 例子s1a2r=0s2a3r=0s5a3r=0s8a2r=1s9s_1 \underset{r=0}{\stackrel{a_2}{\longrightarrow}} s_2 \underset{r=0}{\stackrel{a_3}{\longrightarrow}} s_5 \underset{r=0}{\stackrel{a_3}{\longrightarrow}} s_8 \underset{r=1}{\stackrel{a_2}{\longrightarrow}} s_9
  • 回报(Return) :轨迹上所有动作得到的奖励之和。 对于下面两个policy,你觉得哪个好呢?(答案是左边的.)

image.png

那么我们应该怎么评价这种好坏呢?

1.7 无限轨迹与折扣因子

核心问题

  • 无限轨迹困境
    当轨迹永不终止时,累计奖励 G=r0+r1+r2+G = r_0 + r_1 + r_2 + \cdots 会趋向无穷大,导致计算失效。

解决方案:折扣因子(γ)

公式定义

引入折扣因子 γ[0,1)\gamma \in [0,1),定义收敛的折扣回报

G=t=0γtrtG= \sum_{t=0}^\infty \gamma^t r_t

数学特性

  • 收敛保证:当 γ<1\gamma < 1 且奖励有界时,G 必定收敛
  • 衰减速率:未来第 k 步奖励权重为γk\gamma^k(指数衰减)

γ\gamma值的作用机制

γ值范围视野特征策略倾向典型场景
0.9长远规划战略决策机器人导航
0.5平衡考量风险规避股票交易
0.1短视决策即时优化实时控制
γ→1理论分析无限视野学术研究

直观示例

γ值第10步奖励权重效果比喻
0.9≈ 0.35战略家(看10步)
0.5≈ 0.001经理(看5步)
0.1≈ 0日结工(只看当前)

实践指南

  1. 常规取值γ=0.90.99\gamma = 0.9 \sim 0.99(平衡收敛性与长远规划)

  2. 边界情况

    • γ=0\gamma = 0 → 完全贪婪策略(仅关注即时奖励)
    • γ=1\gamma = 1 → 仅限有限轨迹任务(需环境终止条件)
  3. 调试技巧

    • 若算法收敛困难→尝试降低γ\gamma值(如0.8→0.9)
    • 若策略过于短视→尝试提高γ\gamma值(如0.95→0.98)

1.7 集(Episode)

任务类型

Episodic TaskContinuing Task
有终止状态(如游戏通关)无终止状态(如持续控制)
轨迹有限(称为一个episode)轨迹无限持续

Grid-World目标状态处理

方法1:吸收状态法

  • 核心设计

    • 到达目标后强制停留,所有动作无效
    • 后续奖励固定为0
  • 优点:训练稳定,避免策略反复跳出目标

方法2:策略依赖法

  • 核心设计

    • 目标状态视为普通状态
    • 好策略:主动停留(如保持动作)
    • 差策略:可能意外离开目标
  • 优点:更灵活适应动态环境

方案对比

吸收状态法策略依赖法
实现难度简单(改状态转移规则)较难(依赖策略优化)
适用场景明确终止条件(如迷宫终点)动态目标(如资源刷新点)
风险策略不佳时可能丢失目标