1. 基本概念
1.1 状态(State)
- 定义:状态是指agent相对于环境的状态。
- 例子:假定在grid-world中,状态是agent所处的位置,共有9个状态。
- 状态空间:
1.2 动作(Action)
- 定义:动作表示agent可以采取的行为。
- 例子:共有5个动作,分别表示向上、右、下、左、保持不动。
- 动作空间:
1.3 状态转移(State Transition)
-
定义:agent采取一个动作,从一个状态转移到另一个状态的过程。
-
例子:采取a2是向右不会触碰边界,到达状态,采取a1会触碰边界保持状态
- (触到边界)
-
状态转移概率:
1.4 策略(Policy)
- 定义:策略决定了在某个状态下采取什么动作。
-
例子:
- 确定性策略:
- 随机策略:
1.4 奖励(Reward)
-
定义:奖励是agent采取一个动作后获得的标量。
-
例子:
- 正奖励:表示采取该动作得到了奖励。
- 负奖励(惩罚) :表示采取该动作得到了惩罚。
- 零奖励:表示没有惩罚或奖励。
-
奖励设定:
- agent穿越边界:
- agent进入禁止区域:
- agent进入目标区域:
- 否则:
reward依赖于当前的状态和action,而不是下一个状态,例子:和得到的reward不应该相同。
1.6 轨迹(Trajectory)
- 定义:轨迹是agent在环境中的一条序列(状态-动作-奖励链)。
- 例子:
- 回报(Return) :轨迹上所有动作得到的奖励之和。 对于下面两个policy,你觉得哪个好呢?(答案是左边的.)
1.7 无限轨迹与折扣因子
核心问题
- 无限轨迹困境:
当轨迹永不终止时,累计奖励 会趋向无穷大,导致计算失效。
解决方案:折扣因子(γ)
公式定义
引入折扣因子 ,定义收敛的折扣回报:
数学特性
- 收敛保证:当 且奖励有界时,G 必定收敛
- 衰减速率:未来第 k 步奖励权重为(指数衰减)
值的作用机制
| γ值范围 | 视野特征 | 策略倾向 | 典型场景 |
|---|---|---|---|
| 0.9 | 长远规划 | 战略决策 | 机器人导航 |
| 0.5 | 平衡考量 | 风险规避 | 股票交易 |
| 0.1 | 短视决策 | 即时优化 | 实时控制 |
| γ→1 | 理论分析 | 无限视野 | 学术研究 |
直观示例
| γ值 | 第10步奖励权重 | 效果比喻 |
|---|---|---|
| 0.9 | ≈ 0.35 | 战略家(看10步) |
| 0.5 | ≈ 0.001 | 经理(看5步) |
| 0.1 | ≈ 0 | 日结工(只看当前) |
实践指南
-
常规取值:(平衡收敛性与长远规划)
-
边界情况:
- → 完全贪婪策略(仅关注即时奖励)
- → 仅限有限轨迹任务(需环境终止条件)
-
调试技巧:
- 若算法收敛困难→尝试降低值(如0.8→0.9)
- 若策略过于短视→尝试提高值(如0.95→0.98)
1.7 集(Episode)
任务类型
| Episodic Task | Continuing Task |
|---|---|
| 有终止状态(如游戏通关) | 无终止状态(如持续控制) |
| 轨迹有限(称为一个episode) | 轨迹无限持续 |
Grid-World目标状态处理
方法1:吸收状态法
-
核心设计:
- 到达目标后强制停留,所有动作无效
- 后续奖励固定为0
-
优点:训练稳定,避免策略反复跳出目标
方法2:策略依赖法
-
核心设计:
- 目标状态视为普通状态
- 好策略:主动停留(如保持动作)
- 差策略:可能意外离开目标
-
优点:更灵活适应动态环境
方案对比
| 吸收状态法 | 策略依赖法 | |
|---|---|---|
| 实现难度 | 简单(改状态转移规则) | 较难(依赖策略优化) |
| 适用场景 | 明确终止条件(如迷宫终点) | 动态目标(如资源刷新点) |
| 风险 | 无 | 策略不佳时可能丢失目标 |