《强化学习》入门C7 n-step Bootstrapping其中这里的 Vt:S→R是 vπ 在时刻t的估计值。St+

pproblem：

Gt:t+1≐Rt+1+γVt(St+1)Gt:t+1≐Rt+1+γVt(St+1)

其中这里的 Vt:S→R是 vπ 在时刻t的估计值。St+1的v值用的是t时刻估计的老值

Gt:t+n≐Rt+1+γRt+2+⋯+γn−1Rt+n+γnVt+n−1(St+n)(7.1)

而所有其他状态的值保持不变：对于所有

s≠Sts≠StVt+n(s)=Vt+n−1(s)Vt+n(s)=Vt+n−1(s)。依旧用的是老值，因为还没更新到它

note：

即如果单单从前向视角（或者说原理层面）来考虑TD(λ)算法,那么它就是λ-return算法；然而完整的TD(λ)算法并非λ-return算法，因为它的后向视角（或者说工程实现层面）并非按照λ-return方式来实现，而是借助了我们后面就要讲的资格迹方法来实现的。

前向视角只提供了一个非常好但却无法直接实现的思路，因为它在每一个timestep都需要用到很多步之后的信息，这在工程上很不高效。而后向视角恰恰解决了这个问题，采用一种带有明确因果性的递增机制来实现TD(λ),(见备注)最终的效果是在on-line case和前向视角近似，在off-line case和前向视角精确一致。

☆备注：资格迹它来表示之前的状态对于达到当前状态的作用 如果作用大假设他对于获取一个好的状态的奖励大那么到了在该后向视角更新时就要重点更新它如果它没什么作用就不更新它