原文地址:www.infyai.cn/2025/12/28/…`
我学强化学习的时候,最大的困扰是:算法太多,名字一堆,每次看完一个新算法就忘了之前的,总觉得它们之间没什么联系。
MC、TD、SARSA、Q-learning、DQN、REINFORCE、PPO、SAC、TD3……这些名字听起来像是完全不同的东西。但其实,它们都在回答同一个问题:怎么让智能体学会做决策。
后来我发现,如果你用"三个问题"来看这些算法,它们就不再是一堆孤立的名字,而是有清晰脉络的一个体系:
- 它在学什么?(状态价值、动作价值、还是策略)
- 它的学习目标从哪来?(真实回报 vs 估计值)
- 数据能不能重复用?(on-policy vs off-policy)
强化学习的基本设定
所有算法都在解决马尔可夫决策过程(MDP):
(S,A,P,r,γ)
- s∈S:状态
- a∈A:动作
- P(s′∣s,a):转移概率
- r=r(s,a):奖励
- γ∈[0,1):折扣因子
智能体和环境交互,产生一条轨迹:
s0,a0,r1,s1,a1,r2,…
回报(Return)是未来奖励的折扣累加:
Gt=k=0∑∞γkrt+k+1
目标是最大化期望回报:
πmaxJ(π)=Eπ[t≥0∑γtrt+1]
有些算法(比如 SAC)还会加上熵项,鼓励探索:
πmaxEπ[t≥0∑γt(rt+1+αH(π(⋅∣st)))]
其中熵 H(π(⋅∣s))=−Ea∼π[logπ(a∣s)]。
三个分类轴:把所有算法放进去
不要一上来就背算法名字,先问自己这三个问题:
轴 A:学什么(表示)
- 学状态价值 Vπ(s):这个状态"平均有多好"
- 学动作价值 Qπ(s,a):在状态 s 做动作 a 有多好
- 学策略 π(a∣s):直接学怎么出动作
- Actor-Critic:同时学策略(actor)+ 价值(critic)
它们之间的关系:π(⋅∣s) 表示在策略 π 下,状态s所能执行的动作的条件分布
Vπ(s)=Ea∼π(⋅∣s)[Qπ(s,a)],Aπ(s,a)=Qπ(s,a)−Vπ(s)
轴 B:学习目标怎么来(MC vs TD)
- MC(蒙特卡洛):用完整回报 Gt(等到回合结束)
- TD(时序差分):用一步奖励 + 下一步的估计(bootstrapping)
轴 C:数据能否重复利用(on-policy vs off-policy)
- on-policy:数据来自当前策略,旧数据基本作废
- off-policy:可以用旧策略数据(replay buffer),样本效率高
价值函数与 Bellman 方程
所有基于价值的方法(TD、Q-learning、DQN)都在逼近 Bellman 方程。
定义
Vπ(s)=Eπ[Gt∣st=s],Qπ(s,a)=Eπ[Gt∣st=s,at=a]
Bellman 期望方程(评估当前策略)
Vπ(s)=Ea∼π,s′∼P[r+γVπ(s′)]
Qπ(s,a)=Es′∼P[r+γEa′∼π[Qπ(s′,a′)]]
Bellman 最优方程(找最优策略)
V∗(s)=amaxE[r+γV∗(s′)],Q∗(s,a)=E[r+γa′maxQ∗(s′,a′)]
TD 类方法就是在采样下逼近这些方程。
MC vs TD:学习目标从哪来
这一节解释你之前可能困惑的"有偏/无偏、方差大小"。
MC:用真实回报 Gt
更新 V:
V(st)←V(st)+α[Gt−V(st)]
更新 Q:
Q(st,at)←Q(st,at)+α[Gt−Q(st,at)]
直觉:等一局打完再算"这一步最终带来了多少总分"。
- 优点:target 更"真实",通常无偏
- 缺点:轨迹随机性累积,方差大;必须等结束;样本效率差
TD(0):一步就更新(bootstrapping)
TD(0) 评估 V:
V(st)←V(st)+αδt[rt+1+γV(st+1)−V(st)]
- TD target:rt+1+γV(st+1)
- TD error:δt=rt+1+γV(st+1)−V(st)
直觉:不等结局,用"下一步我估计还能拿多少分"来更新当前。
- 优点:在线;更新更频繁;通常方差更小;样本更省
- 缺点:target 里用了估计 V(st+1)(不是真值),因此通常有偏
n-step 与 TD(λ):在 MC 与 TD 之间折中
n-step 回报:
Gt(n)=k=0∑n−1γkrt+k+1+γnV(st+n)
- n=1:TD(0)
- n→∞:趋向 MC
TD(λ) 把所有 n-step 按 λ 加权混合(常用资格迹/GAE 思想)。
SARSA 与 Q-learning:都是 TD 控制
很多人以为 SARSA 和 Q-learning 的区别是 TD vs 非 TD。这是错的。
它们都是 TD 控制(学 Q),差别在 on-policy vs off-policy 的 target。
SARSA(on-policy TD 控制)
用实际执行的下一动作 at+1:
Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]
直觉:"我下一步真的会这么走(含探索),那我就按这条路来学习。"
- 优点:更"贴合实际行为策略",在有风险探索时更保守
- 缺点:收敛到的是当前行为策略对应的 Qπ,探索强时可能偏保守
Q-learning(off-policy TD 控制)
target 用贪心最大值:
Q(st,at)←Q(st,at)+α[rt+1+γa′maxQ(st+1,a′)−Q(st,at)]
直觉:"不管我探索时怎么乱走,我学习目标永远按最优动作来算。"
- 优点:直接逼近 Q∗,理论上更"追最优"
- 缺点:max 会带来过估计倾向(深度函数逼近下更明显)
DQN:Q-learning + 神经网络 + 稳定器
DQN 用神经网络 Qθ(s,a) 近似 Q,核心更新仍是 Q-learning 的 TD 目标。
TD 目标与损失
用 target network θ−:
y=r+γa′maxQθ−(s′,a′)
最小化平方误差:
L(θ)=E[(y−Qθ(s,a))2]
为什么 DQN 需要"两个稳定器"
- Experience Replay:把经验存入回放池,随机采样打散相关性
- Target Network:θ− 慢更新,避免"目标也跟着你同时变"导致发散
常见 DQN 改进
- Double DQN:缓解 max 过估计
- Dueling:把 Q 分解为 V 与 Advantage
- PER:优先采样"大 TD error"经验
REINFORCE:纯策略梯度
REINFORCE 是最原始的策略梯度:直接用 MC 回报推策略。
基本更新
目标:
J(θ)=Eπθ[G0]
REINFORCE 更新:
θ←θ+αt∑∇θlogπθ(at∣st)Gt
直觉:这局分高,就把这局出现过的动作概率往上推。
baseline:从 REINFORCE 走向 Actor-Critic 的关键一步
加入 baseline b(st) 不改变期望梯度,但能显著降方差:
θ←θ+αt∑∇θlogπθ(at∣st)(Gt−b(st))
最常用 b(s)=Vϕ(s),于是权重近似优势:
Gt−Vϕ(st)≈A(st,at)
REINFORCE 的问题:
- 优点:概念最干净,通常无偏
- 缺点:方差大、样本效率低、训练抖
所以现代方法通常用 Actor-Critic(引入 critic)来替代它。
Actor-Critic 总框架
Actor-Critic = 两个网络(或共享骨干):
- Actor:πθ(a∣s)
- Critic:Vϕ(s) 或 Qϕ(s,a)
你可以把绝大多数现代算法看成在回答两件事:
- critic 怎么学(target 怎么构造)
- actor 怎么学(目标函数是什么、用什么约束)
Actor 的一般更新(策略梯度形态)
∇θJ(θ)=E[∇θlogπθ(a∣s)A^(s,a)]
其中 A^ 来自 critic(例如 GAE、TD error、或 soft Q 形式)。
Critic 的一般更新(Bellman/TD 形态)
如果学 V:
ϕminE[(V^target(s)−Vϕ(s))2]
如果学 Q:
ϕminE[(Q^target(s,a)−Qϕ(s,a))2]
PPO:on-policy 的稳定策略更新
PPO 是 on-policy Actor-Critic,核心在于:每次策略更新别跨太大步(稳定训练)。
重要性采样比率
rt(θ)=πθold(at∣st)πθ(at∣st)
PPO-Clip 目标(核心)
LCLIP(θ)=E[min(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)]
典型 PPO 训练总损失(工程常用)
L(θ,ϕ)=−LCLIP(θ)+c1value lossE[(Vϕ(st)−V^t)2]−c2entropy bonusE[H(πθ(⋅∣st))]
PPO 的优劣
- 优点:非常稳、好调、泛用(离散/连续都能做)
- 缺点:on-policy → 数据"用完就得再采样",样本效率不如 off-policy(SAC/TD3)
DDPG → TD3:连续动作的 off-policy 确定性 Actor-Critic
连续动作下,maxaQ(s,a) 不好做(动作是连续变量),所以常用 actor 直接输出动作。
DDPG(确定性策略)
- actor:a=μθ(s)
- critic:Qϕ(s,a)
critic 目标:
y=r+γQϕ−(s′,μθ−(s′))
critic loss:
L(ϕ)=E[(y−Qϕ(s,a))2]
actor 目标(最大化 Q):
J(θ)=E[Qϕ(s,μθ(s))]
用链式法则做确定性策略梯度。
TD3:DDPG 的稳定升级
TD3 三招(强烈建议背下来):
-
双 Q 取最小:减少过估计
y=r+γi=1,2minQϕi−(s′,a~′)
-
target policy smoothing:a~′=μθ−(s′)+ϵ,ϵ∼clip(N(0,σ),−c,c)
-
延迟更新 actor:critic 更新多步后再更 actor
TD3 的优劣
- 优点:连续控制强、样本效率高、比 DDPG 稳很多
- 缺点:确定性策略探索依赖外加噪声;实现与超参比 PPO 复杂
SAC:最大熵 off-policy Actor-Critic
SAC 可以理解为:"更会探索、更鲁棒"的 off-policy Actor-Critic。
最大熵目标带来的直觉
SAC 不只追求高回报,还追求高熵(策略别太死板)。
直觉:你不希望策略过早变成"死贪心",否则容易卡在次优、也更脆弱。
soft Q 的 Bellman 备份(核心差异)
SAC 的 critic target 多了熵项(或 logπ 项)。一种常见写法:
y=r+γ(i=1,2minQϕi−(s′,a′)−αlogπθ(a′∣s′)),a′∼πθ(⋅∣s′)
critic loss 同样是 MSE:
L(ϕ)=E[(y−Qϕ(s,a))2]
actor 更新("最大化 Q + 熵")
actor 目标常写成最小化:
J(θ)=Es∼D,a∼πθ[αlogπθ(a∣s)−iminQϕi(s,a)]
即让策略选择那些 Q 高 且 logπ 代价低(熵高) 的动作。
温度 α(可自动调)
很多实现会自动学习 α,让策略熵靠近目标熵 Htarget:
J(α)=Ea∼πθ[−α(logπθ(a∣s)+Htarget)]
SAC 的优劣
- 优点:off-policy + replay → 样本效率高;探索强;连续控制很强、训练常更稳健
- 缺点:实现复杂(双 Q、熵项、温度、更新比等);超参比 PPO 多
一张总对照表
| 方法 | 学什么 | MC/TD | on/off | 动作空间 | 核心 target / 目标 | 优点 | 缺点 |
|---|
| MC 评估 | V/Q | MC | on | 任意 | Gt | 无偏直观 | 方差大、等结束 |
| TD(0) 评估 | V | TD | on | 任意 | r+γV(s′) | 在线、稳 | 有偏 |
| SARSA | Q | TD | on | 多为离散 | r+γQ(s′,a′) | 更保守贴合行为 | 样本效率一般 |
| Q-learning | Q | TD | off | 多为离散 | r+γmaxa′Q(s′,a′) | 追最优、可 off-policy | 过估计风险 |
| DQN | Qθ | TD | off | 离散(不大) | MSE 拟合 Q-learning target | 实战强基线 | 连续动作不直接适用 |
| REINFORCE | π | MC | on | 任意 | ∇logπ⋅Gt | 概念最纯 | 方差大、慢 |
| PPO | π+V | 多为 TD/GAE | on | 任意 | clip surrogate + value loss | 稳、好调 | 样本效率不如 off |
| TD3 | μ+Q | TD | off | 连续 | 双Q最小+平滑+延迟更新 | 连续控制强、样本效率高 | 实现/调参较复杂 |
| SAC | π+Q | TD(soft) | off | 连续(也可离散) | Q−αlogπ(最大熵) | 探索强、样本效率高 | 实现复杂 |
选型指南:什么时候用谁
按最关键的两个问题选:
动作空间
- 离散且动作数不大:优先 DQN(或 PPO 也行但通常不如 DQN 简洁高效)
- 连续动作:优先 SAC / TD3;想稳且实现简单可选 PPO
采样成本(交互贵不贵)
- 交互很贵(真实系统/慢仿真):优先 off-policy(SAC/TD3/DQN)
- 交互便宜(并行仿真):PPO 很舒服(稳、可扩展)
你更在乎什么
- 稳定、少踩坑:PPO
- 样本效率、探索、连续控制强:SAC(很多场景首选)
- 确定性控制、追求"硬"性能:TD3(常作为强 baseline)
常见坑与调参检查单
"致命三元组"(函数逼近 + bootstrapping + off-policy)
很多发散/不稳定都来自这三个同时出现(典型深度 Q 学习、off-policy TD)。
应对:target network、双 Q、replay、合理学习率/归一化、限制更新步长。
PPO 常见要点
- advantage 归一化几乎必做
- clip ϵ 不要太大;value loss 权重别压过 policy
- rollout 长度、epoch、batch size 会显著影响稳定性
SAC/TD3 常见要点
- replay buffer 足够大;warmup 采样(先填 buffer)
- 更新比(每交互一步更新几次)要合理
- 观察 Q 值尺度:爆炸通常意味着学习率/目标网络/归一化有问题
- SAC 的 α 自动调通常更省心(但要设置合理 target entropy)
最简记忆脉络(一句话版)
- MC vs TD:target 是 Gt(等结局)还是 r+γV^/Q^(用下一步估计)
- SARSA vs Q-learning:target 用 Q(s′,a′)(on-policy)还是 maxa′Q(s′,a′)(off-policy)
- DQN:Q-learning + 神经网络 + replay + target network
- REINFORCE:纯策略梯度(MC),方差大 → 引入 baseline/critic 变 Actor-Critic
- PPO:on-policy Actor-Critic,核心是"别更新太猛"(clip)
- TD3:off-policy 连续控制,DDPG 的稳化(三招)
- SAC:off-policy + 最大熵(探索强、样本效率高)