【RL】强化学习入门（一）：强化学习问题定义强化学习入门（一），讲解强化学习问题定义。强化学习是一种学习如何从状态映射到

强化学习入门第一部分~

1 任务背景

强化学习是一种学习如何从状态映射到动作以最大化最终奖励的学习机制。智能体需要不断地在环境中进行实验，通过环境给予的反馈（奖励）来不断优化状态-行为的对应关系。

其中提及了四个要素，我们分别加以解释：

以 Breakout（打砖块） 为例，强化学习的任务可以概括为：让智能体通过不断试错，学习控制挡板击球，最大化清除砖块的得分，最终掌握高效连击和精准反弹的策略。

在打砖块游戏中，强化学习的四要素具体表现为：

学习范式	数据特征	反馈类型	目标导向性
监督学习	独立同分布标注数据	即时精确反馈	拟合已有知识
无监督学习	无标注数据	无显式反馈	发现数据模式
强化学习	时序相关交互数据	延迟稀疏反馈	最大化长期收益

强化学习具有以下四个核心特征：

想要用算法解决问题，我们需要从具体问题中抽象出数学描述。

在强化学习框架中，智能体与环境的交互被建模为离散时间的马尔可夫决策过程（MDP），由元组 $(\mathcal{S}, \mathcal{A}, \mathcal{R}, \mathcal{P}, \gamma)$ 构成。

变量符号	定义	说明
$x_t \in \mathcal{R}$	当前时刻 $t$ 的原始像素观测（RGB图像）	单帧游戏画面，未经过预处理
$a_t \in \mathcal{A}$	离散动作空间（如{NOOP, FIRE, RIGHT, LEFT...}）	对应游戏手柄的18种可能操作
$s_t\in \mathcal{S}$	状态空间，历史帧画面和动作的序列： $s_t=(x_1,a_1,x_2,\dots,x_t)$	过去游戏画面和执行操作依时序拼接形成的序列
$r_t \in \mathcal{R}$	游戏引擎返回的即时奖励	得分变化量（可能被裁剪到[-1,1]范围）
$\mathcal{P}(s′,r∣s,a)$	在状态 $s$ 执行动作 $a$ 后转移到状态 $s′$ 的概率并获得收益 $r$ 的概率	状态转移概率函数，描述游戏环境
$\gamma$	折扣因子（论文中 $\gamma=0.99$ ）	确保无限时域累计奖励收敛

动作 $a_t$ 被传递至环境
环境根据内部动态特性产生：
- 新状态 $s_{t+1} \sim P(\cdot|s_t,a_t)$
- 即时标量奖励 $r_{t+1} \in \mathbb{R}$

环境向智能体返回：
- 下一状态 $s_{t+1}$
- 奖励信号 $r_{t+1}$
- 终止标志 $d_{t+1} \in \{True, False\}$

本文讲解了强化学习的问题定义，后续将会讲解各个强化学习算法流程，进而解决现实问题。