[2025.11.10] GRPO学习[2025.11.10] GRPO学习在强化学习中，直接优化策略会导致训练不稳定

GRPO

在强化学习中，直接优化策略会导致训练不稳定，参数过大更新导致模型崩溃。PPO通过限制策略更新幅度，让每一步训练都不会太偏离当前策略。

L^{CLIP}(\theta) = \mathbb{E}_{t}[min(r_{t}(\theta)A_[t],clip(r_{t}(\theta),1-\varepsilon,1+\varepsilon)A_{t})]

$r_{t}(\theta) = \frac{\pi_{\theta}(a_{t}|s_{t})}{\pi_{\theta_{old}}(a_{t}|s_{t})}$ ：新旧策略概率比，表示策略变化的程度。
$A_{t}$ ：优势函数，衡量动作偏离平均回报的程度
$clip$ 函数：限制更新幅度，防止策略突变

强化学习算法的核心目标是优化策略 $\pi_{\theta}$ ，最大化奖励积累 $R$ 。策略梯度算法直接优化策略，有时参数更新过大会导致模型不稳定。为了解决该问题，PPO引入 $clip$ 限制更新幅度，保证策略的稳定性。

通过梯度上升更新 $\pi_{\theta}$ 。

PPO的目标是找到一个折中：在保持改进的同时防止策略变化过大导致不稳定。

PPO不仅优化策略，还同时更新优化值函数 $V(s_{t})$ ，通过最小化均方误差来更新：

L^{VF}(\theta) = \mathbb{E}[(V(s_{t};\theta)-R_{t})^{2}]

作用是使得Critic更准确地估计状态值。

熵正则化项可以鼓励策略的探索。

L^{ENT}(\theta) = \mathbb{E}t[H(\pi_{\theta}(s_{t}))]

PPO集合策略损失、值函数损失和熵正则化项，组成总损失函数

L(\theta) = \mathbb{E}_t[L^{CLIP}(\theta) - c_1L^{VF}(\theta) + c_2L^{ENT}(\theta)]

1.采样 -> 2.计算优势函数 -> 3.计算概率比率 $r_{t}(\theta)$ -> 4.策略更新 -> 5.值函数更新 -> 6.重复上述步骤

使用当前策略 $\pi_{\theta}$ 与环境交互，收集状态 $s_{t}$ 、动作 $a_{t}$ 、奖励 $r_{t}$ 。
评估某个动作 $a_{t}$ 在状态 $s_{t}$ 下相对于平均表现的优劣（优势函数 $A_{t}$ ），利用 $A_{t}$ 引导策略改进。
比较新策略和旧策略对动作 $a_{t}$ 的选择概率。
$clip$ 剪辑范围为 $1-\varepsilon$ 到 $1+\varepsilon$ ，如果更新超过该范围会被惩罚。保证更新幅度适中，既不能太保守，又不能太激进。
$L^{ENT}(\theta) = \mathbb{E}t[H(\pi_{\theta}(s_{t}))]$
通过多轮迭代使策略逐步优化，直到收敛。

对同一prompt生成 $K$ 个响应组成一个组：

G = \{(y_1,r_1),(y_2,r_2),...,(y_{K},r_{K})\}

其中y为响应，r为奖励。

组内标准化优势函数

\tilde{A}_{i} = \frac{r_{i}-\mu_{G}}{\sigma_{G}}

相对排名优势

A^{rank}_{i} = \frac{rank(r_{i})-(K+1)/2}{K/2}

混合优势函数

A^{GRPO}_{i} = \lambda\tilde{A}_{i} + (1-\lambda)A^{rank}_{i}

$\lambda = 0.7$ 时效果最佳

L^{GRPO}(\theta) = \mathbb{E}_{G}[\frac{1}{K}\sum^{K}_{i=1}min(r_{i}(\theta)A_{i}^{GRPO},clip(r_{i}(\theta),1-\varepsilon,1+\varepsilon)A^{GRPO}_{i})]

通过相对优势降低方差，结合数组差异和排名信息，组均值作为天然基线无需额外网络。