pproblem:
Gt:t+1≐Rt+1+γVt(St+1)Gt:t+1≐Rt+1+γVt(St+1)
其中这里的 Vt:S→R是 vπ 在时刻t的估计值。St+1的v值用的是t时刻估计的老值
Gt:t+n≐Rt+1+γRt+2+⋯+γn−1Rt+n+γnVt+n−1(St+n)(7.1)
而所有其他状态的值保持不变:对于所有
s≠Sts≠StVt+n(s)=Vt+n−1(s)Vt+n(s)=Vt+n−1(s)。依旧用的是老值,因为还没更新到它
note:
即如果单单从前向视角(或者说原理层面)来考虑TD(λ)算法,那么它就是λ-return算法;然而完整的TD(λ)算法并非λ-return算法,因为它的后向视角(或者说工程实现层面)并非按照λ-return方式来实现,而是借助了我们后面就要讲的资格迹方法来实现的。
前向视角只提供了一个非常好但却无法直接实现的思路,因为它在每一个timestep都需要用到很多步之后的信息,这在工程上很不高效。而后向视角恰恰解决了这个问题,采用一种带有明确因果性的递增机制来实现TD(λ),(见备注)最终的效果是在on-line case和前向视角近似,在off-line case和前向视角精确一致。
☆备注:资格迹它来表示之前的状态对于达到当前状态的作用 如果作用大 假设他对于获取一个好的状态的奖励大 那么到了在该后向视角更新时就要重点更新它 如果它没什么作用 就不更新它