强化学习入门第一部分~
1 任务背景
强化学习是一种学习如何从状态映射到动作以最大化最终奖励的学习机制。智能体需要不断地在环境中进行实验,通过环境给予的反馈(奖励)来不断优化状态-行为的对应关系。
其中提及了四个要素,我们分别加以解释:
- 状态(State) :环境当前的情况,是智能体做决策的依据。
- 动作(Action) :智能体在某个状态下可以执行的操作。
- 奖励(Reward) :环境对智能体动作的即时反馈,决定行为的好坏。
- 策略(Policy) :智能体在特定状态下选择动作的规则,决定如何行动。
以 Breakout(打砖块) 为例,强化学习的任务可以概括为:让智能体通过不断试错,学习控制挡板击球,最大化清除砖块的得分,最终掌握高效连击和精准反弹的策略。
在打砖块游戏中,强化学习的四要素具体表现为:
| 要素 | Breakout示例 |
|---|---|
| 状态(State) | 历史游戏截图和操作序列 |
| 动作(Action) | 离散动作:左移、右移、不动 |
| 奖励(Reward) | 击碎砖块:+1,漏球:0,回合结束 |
| 策略(Policy) | 从当前状态到动作的映射函数 |
与监督/无监督学习的本质区别
| 学习范式 | 数据特征 | 反馈类型 | 目标导向性 |
|---|---|---|---|
| 监督学习 | 独立同分布标注数据 | 即时精确反馈 | 拟合已有知识 |
| 无监督学习 | 无标注数据 | 无显式反馈 | 发现数据模式 |
| 强化学习 | 时序相关交互数据 | 延迟稀疏反馈 | 最大化长期收益 |
核心特征
强化学习具有以下四个核心特征:
- 试错学习(Trial-and-Error):智能体必须在尝试新动作(探索)与执行已知好动作(利用)间平衡。
- 延迟奖励(Delayed Reward):需确定哪个动作应对后续奖励负责,常通过衰减远期奖励的重要性。
- 序列决策(Sequential Decision Making):下一状态仅依赖当前状态与动作,当前决策影响未来所有可能性。
- 环境交互性(Environment Interaction):智能体行为改变后续观察到的状态分布。
2 形式化问题定义
想要用算法解决问题,我们需要从具体问题中抽象出数学描述。
在强化学习框架中,智能体与环境的交互被建模为离散时间的马尔可夫决策过程(MDP),由元组 构成。
2.1 变量定义
| 变量符号 | 定义 | 说明 |
|---|---|---|
| 当前时刻的原始像素观测(RGB图像) | 单帧游戏画面,未经过预处理 | |
| 离散动作空间(如{NOOP, FIRE, RIGHT, LEFT...}) | 对应游戏手柄的18种可能操作 | |
| 状态空间,历史帧画面和动作的序列: | 过去游戏画面和执行操作依时序拼接形成的序列 | |
| 游戏引擎返回的即时奖励 | 得分变化量(可能被裁剪到[-1,1]范围) | |
| 在状态 执行动作 后转移到状态 的概率并获得收益 的概率 | 状态转移概率函数,描述游戏环境 | |
| 折扣因子(论文中 ) | 确保无限时域累计奖励收敛 |
2.2 强化学习的离散时间步过程
(1)状态观测
- 环境向智能体呈现当前状态
- 状态是环境内部情况的完全或部分可观测表示
(2)动作选择
- 智能体根据内部策略生成动作
- 表示状态 下的可用动作集
(3)环境交互
- 动作 被传递至环境
- 环境根据内部动态特性产生:
- 新状态
- 即时标量奖励
(4)信息传递
- 环境向智能体返回:
- 下一状态
- 奖励信号
- 终止标志
(5)时间步推进
- 系统时钟从 t 递进到 t+1
- 若 ,当前回合终止并重置环境
- 否则继续新一轮状态观测
本文讲解了强化学习的问题定义,后续将会讲解各个强化学习算法流程,进而解决现实问题。