1.强化学习基本概念

2025-03-09 204 阅读3分钟

1. 基本概念

1.1 状态（State）

定义：状态是指agent相对于环境的状态。
例子：假定在grid-world中，状态是agent所处的位置，共有9个状态 $（s_1, s_2, \ldots, s_9）$ 。
状态空间： $\mathcal{S} = {s_i}_{i=1}^9$

1.2 动作（Action）

定义：动作表示agent可以采取的行为。
例子：共有5个动作 $a_1,a_2,a_3,a_4,a_5$ ，分别表示向上、右、下、左、保持不动。
动作空间： $\mathcal{A}(s_i) = {a_i}_{i=1}^5$

1.3 状态转移（State Transition）

定义：agent采取一个动作，从一个状态转移到另一个状态的过程。
例子：采取a2是向右不会触碰边界，到达 $s_2$ 状态，采取a1会触碰边界保持 $s_1$ 状态
- $s_1 \overset{a_2}{\rightarrow} s_2$
- $s_1 \overset{a_1}{\rightarrow} s_1$ （触到边界）
状态转移概率： $p(s_k∣s_i,a_j)=p$

1.4 策略（Policy）

定义：策略决定了在某个状态下采取什么动作。

例子：
- 确定性策略： $\pi(a_1 \mid s_1) = 0$
- 随机策略： $\pi(a_1 \mid s_1) = 0.6$

1.4 奖励（Reward）

定义：奖励是agent采取一个动作后获得的标量。
例子：
- 正奖励：表示采取该动作得到了奖励。
- 负奖励（惩罚） ：表示采取该动作得到了惩罚。
- 零奖励：表示没有惩罚或奖励。
奖励设定：
- agent穿越边界： $r_{bound} = -1$
- agent进入禁止区域： $r_{forbid} = -1$
- agent进入目标区域： $r_{target} = 1$
- 否则： $r=0$

reward依赖于当前的状态和action，而不是下一个状态，例子： $(s_1,a_1)$ 和 $(s_1, a_5)$ 得到的reward不应该相同。

1.6 轨迹（Trajectory）

定义：轨迹是agent在环境中的一条序列（状态-动作-奖励链）。
例子： $s_1 \underset{r=0}{\stackrel{a_2}{\longrightarrow}} s_2 \underset{r=0}{\stackrel{a_3}{\longrightarrow}} s_5 \underset{r=0}{\stackrel{a_3}{\longrightarrow}} s_8 \underset{r=1}{\stackrel{a_2}{\longrightarrow}} s_9$
回报（Return） ：轨迹上所有动作得到的奖励之和。对于下面两个policy,你觉得哪个好呢?（答案是左边的.）

那么我们应该怎么评价这种好坏呢?

1.7 无限轨迹与折扣因子

核心问题

无限轨迹困境：
当轨迹永不终止时，累计奖励 $G = r_0 + r_1 + r_2 + \cdots$ 会趋向无穷大，导致计算失效。

解决方案：折扣因子（γ）

公式定义

引入折扣因子 $\gamma \in [0,1)$ ，定义收敛的折扣回报：

$G= \sum_{t=0}^\infty \gamma^t r_t$

数学特性

收敛保证：当 $\gamma < 1$ 且奖励有界时，G 必定收敛
衰减速率：未来第 k 步奖励权重为 $\gamma^k$ （指数衰减）

$\gamma$ 值的作用机制

γ值范围	视野特征	策略倾向	典型场景
0.9	长远规划	战略决策	机器人导航
0.5	平衡考量	风险规避	股票交易
0.1	短视决策	即时优化	实时控制
γ→1	理论分析	无限视野	学术研究

直观示例

γ值	第10步奖励权重	效果比喻
0.9	≈ 0.35	战略家（看10步）
0.5	≈ 0.001	经理（看5步）
0.1	≈ 0	日结工（只看当前）

实践指南

常规取值： $\gamma = 0.9 \sim 0.99$ (平衡收敛性与长远规划）
边界情况：
- $\gamma = 0$ → 完全贪婪策略（仅关注即时奖励）
- $\gamma = 1$ → 仅限有限轨迹任务（需环境终止条件）
调试技巧：
- 若算法收敛困难→尝试降低 $\gamma$ 值（如0.8→0.9）
- 若策略过于短视→尝试提高 $\gamma$ 值（如0.95→0.98）

1.7 集（Episode）

任务类型

Episodic Task	Continuing Task
有终止状态（如游戏通关）	无终止状态（如持续控制）
轨迹有限（称为一个episode）	轨迹无限持续

Grid-World目标状态处理

方法1：吸收状态法

核心设计：
- 到达目标后强制停留，所有动作无效
- 后续奖励固定为0
优点：训练稳定，避免策略反复跳出目标

方法2：策略依赖法

核心设计：
- 目标状态视为普通状态
- 好策略：主动停留（如保持动作）
- 差策略：可能意外离开目标
优点：更灵活适应动态环境

方案对比

	吸收状态法	策略依赖法
实现难度	简单（改状态转移规则）	较难（依赖策略优化）
适用场景	明确终止条件（如迷宫终点）	动态目标（如资源刷新点）
风险	无	策略不佳时可能丢失目标