一文读懂强化学习三大核心:蒙特卡洛、贝尔曼方程、TD算法

4 阅读9分钟

强化学习里,算法思路千差万别,但归根结底逃不开三大核心思路:靠实践积累经验的蒙特卡洛、靠逻辑推导的贝尔曼方程,以及兼顾两者、现学现卖的时序差分(TD)。本文不用晦涩术语,用大白话讲清它们的核心逻辑,新手也能一眼看懂。

蒙特卡洛(MC)—— 实践真知流

蒙特卡洛是强化学习的经典基础算法,堪称最接地气的方法,核心信条只有一个:实践出真知

它的逻辑极其简单,全程只有两步:采样跑通 + 平均求值,完全不用复杂推导,靠实打实的尝试算结果。

1. 怎么采样?

蒙特卡洛有个硬性要求:任务必须有终点,比如一盘棋下完、一局游戏结束、迷宫成功走出,不能是无限循环的任务。

运行逻辑很直白:AI按照当前的策略,从某一个状态出发,一步步执行动作,一直走到任务结束,走完一整条完整路径,这就是一次采样。

举个例子:

  • 路径A:顺利通关,最终拿到10分
  • 路径B:中途失误,最终拿到-5分
  • 路径C:完美操作,最终拿到12分

2. 怎么算价值?(策略评估)

蒙特卡洛不靠复杂公式推导,也不用一步步递推,直接用最朴素的算术平均数算价值。

想知道在某个状态S下,执行某个动作(比如往左走)到底值不值,方法很简单:在状态S下重复往左走成千上万次,每次都跑完完整流程,记录最终总分,最后把所有分数取平均值,就是这个状态-动作对的价值。

用公式表示就是:Q(s,a)=Q(s,a) = 多次完整路径总分的平均值。

3. 怎么优化策略?(策略改进)

算出每个动作的平均分值后,AI就会择优选择。下次再遇到状态S,直接挑选分值最高的动作即可。

实际使用中,不会完全只选最高分,会搭配探索策略(比如ε-贪心、UCB),防止AI陷入局部最优,错过更好的路径。选完动作后,再继续采样、跑路径、更新平均值,循环往复,让估值越来越精准。

蒙特卡洛给我们的人生启发

MC 必须等到完整对局结束、到达终点才结算总分,中途绝不轻易判定成败。

启发:很多事情在进行到一半时,你是看不出好坏的,半路的得失不能代表最终结果。

应用:只要还没到达真正的终点,比如项目完结、阶段收官、人生落幕,暂时的低谷、挫折、失意,都可能是为最终收获埋下的伏笔。有时候,坚持到底、走完全程,本身就是一种消除偏见、看清真相的最好方式。


贝尔曼方程—— 全知全能流

如果说蒙特卡洛靠“试错攒经验”,那贝尔曼方程就是靠“逻辑递推”,不用一步步跑完所有路径,像自动填坑一样,把奖励信息反向传递,算出最优价值。

可以把它理解成一个自动修复的估值系统,运行逻辑很形象:

  • 初始状态:一开始对所有状态的价值估值都是错的,要么全填0,要么随机赋值,毫无参考性。
  • 触发机制:只要环境里有一个终点状态有明确奖励(比如通关奖励+100),贝尔曼方程就会把这个奖励,一步步往回传递到前面的状态。
  • 自动修复:离终点越近的状态,价值先被修正准确,再用这些准确的估值,去修正更远的状态估值。
  • 最终效果:搭配折扣因子,远处的误差会随着传递不断衰减,最终整个环境的估值都会变得精准。

记住一句话就能吃透贝尔曼方程:奖励像水波一样往回传,误差随着距离越来越小

贝尔曼方程给我们的人生启发

贝尔曼方程的核心是未来价值的折现累加,当前状态的价值,等于即时奖励加上后续状态的折现价值。

启发:你现在的价值,不只取决于你今天赚了多少钱(即时奖励R),更取决于你把自己推向了一个什么样的未来状态(后续状态的折现价值)。

应用:选工作或选专业时,如果一个岗位当下薪资优厚(即时奖励高),但发展空间极小,是一眼望到头的死胡同(后续未来价值几乎为0),那么这个状态的总价值其实很低,不值得选择。


时序差分(TD)—— 现学现卖流

时序差分算法,是结合了蒙特卡洛和贝尔曼方程的优点,取其精华去其糟粕,属于不用等全程,走一步学一步的高效算法,也是当下主流强化学习算法(比如Sarsa、Q-Learning)的基础。

核心思路:TD目标

蒙特卡洛必须等整局结束,拿到全程总分才能更新估值;贝尔曼方程依赖完整环境模型,属于上帝视角,实用性受限。

时序差分完美折中:

  • 继承蒙特卡洛的采样特性:不用上帝视角,亲自下场尝试,获取真实奖励,不依赖完整环境模型。
  • 继承贝尔曼方程的引导(Bootstrapping) 特性:不用等任务结束,走一步就更新一步,用下一步的预测值,代替未发生的真实结果。

简单来说,TD就是“用猜想更新猜想”,哪怕对未来的估值不完全准确,也能边行动边学习,边尝试边修正。

两大经典TD算法:Sarsa与Q-Learning

时序差分最经典的两个算法,性格截然不同,一个稳妥保守,一个激进贪心,用大白话就能分清两者的区别。

1. Sarsa:老实人流,稳扎稳打

Sarsa的名字,就是它更新用到的五个关键元素:State(当前状态)、Action(当前动作)、Reward(奖励)、State'(下一状态)、Action'(下一动作)

核心性格:言行一致,亲自试错

更新价值时,会参考自己实际要执行的下一动作。就算为了探索,下一步打算走风险路线,也会把这个风险代价算进当前估值里,绝不自欺欺人。

这种算法极其谨慎,会主动避开风险,学到的策略安全稳妥,不会铤而走险。

Sarsa给我们的人生启发

Sarsa 学习的是它实际在执行的策略,会因为担心随机失误、意外风险,主动绕开高危区域,绝不冒承受不起的风险。

启发:环境的容错率决定了你的胆量。

应用:如果你身处试错成本极高的环境,比如背负巨额债务、需要支撑家庭、容错空间极小,就该学Sarsa的稳健思路,宁可放慢脚步、绕远路,也要守住底线,保证不跌入无法挽回的深渊。

2. Q-Learning:野心家流,激进最优

Q-Learning是更主流的强化学习算法,核心性格:只看最优,纸上谈兵

更新价值时,完全不管自己实际下一步怎么走,只假设下一步能选到最优动作,直接取下一状态所有动作里的最高价值,用来更新当前估值。

哪怕实际行动中会犯错、会探索,更新时也完全忽略失误,只按理想最优情况计算。这种算法十分激进,追求极致效率,学到的往往是理论最优路径。

Q-Learning给我们的人生启发

Q-learning 更新时总是假设下一步选最优动作,但实际操作中会用ε-greedy策略随机探索、尝试新路。

启发:认知上要极端理想主义,行动上要极端现实主义。

应用:在评估目标时,要按“如果我做到了最好会怎样”来估算潜力(野心家逻辑);但在实际执行时,要允许自己犯错、允许自己去尝试那些看起来“没用”的探索(探索逻辑),既要仰望星空,也要脚踏实地。

形象对比:过悬崖小路

用一个生活化的例子,一眼分清Sarsa和Q-Learning的差异。

场景:要通过一条悬崖边的小路,有10%的概率因为探索失足掉落。

  • Sarsa(老实人) :担心10%的失足风险,觉得危险系数太高,会选择绕远路,远离悬崖,保证全程安全,宁可慢一点,也不冒风险。
  • Q-Learning(野心家) :只看90%的安全概率,觉得只要不出错,悬崖边就是最快路径,完全忽略失足风险,直奔最短路线,紧贴悬崖行走。

公式对比

Sarsa更新公式

Q(s,a)=Q(s,a)+α[R+γQ(s,a)Q(s,a)]Q(s,a) = Q(s,a) + \alpha [R+ \gamma Q(s',a') - Q(s,a)]

关键点:用实际下一动作的价值Q(s,a)Q(s',a')更新,如实反映后续行动的好坏,稳妥务实。

Q-Learning更新公式

Q(s,a)=Q(s,a)+α[R+γmaxQ(s,a)Q(s,a)]Q(s,a) = Q(s,a) + \alpha [R+ \gamma maxQ(s',a*) - Q(s,a)]

关键点:用下一状态的最大价值maxQ(s,a)maxQ(s',a*)更新,只看最优结果,激进追求极致收益。

总结

  • 蒙特卡洛:笨方法、超稳妥,靠大量完整实践算均值,适合短周期、有终点的任务。
  • 贝尔曼方程:理论基石,靠递推反向传奖励,是理解强化学习估值的核心。
  • 时序差分:实用主流,兼顾采样与递推,不用等全程,边行动边学习。
  • Sarsa:稳妥安全,避坑首选,适合风险敏感场景。
  • Q-Learning:激进最优,追求效率,适合追求极致收益的场景。

贯穿始终的核心启示:探索、利用与终身更新

探索与利用:人生的平衡之道

这是所有强化学习算法都在解决的核心矛盾:该固守已知的最优选择(利用),还是大胆尝试未知的新路(探索)?

启发:年轻时探索率要调高,因为对世界的认知表还是一片空白,大胆试错、广泛涉猎的收益最大;年纪大了探索率要调低,阅历足够、经验丰富之后,守住最优选择、稳步前行的回报更高。

最重要的人生道理

所有的算法都包含一个“更新步”。人生最怕的不是初始认知、初始价值全错,而是停止更新、拒绝成长。只要你还在和外界环境交互,还能根据反馈修正自己的认知、调整自己的决策,顺着收敛的规律稳步前行,最终总能找到属于自己的最优路径。

弄懂这三大思路,就能吃透大部分基础强化学习算法的核心,再也不用被晦涩术语绕晕。