《强化学习》入门C5 Monte Carlo Methods

351 阅读1分钟



On-policy 的目标策略和行为策略是同一个策略,其好处就是简单粗暴,直接利用数据就可以优化其策略,但这样的处理会导致策略其实是在学习一个局部最优,因为On-policy的策略没办法很好的同时保持即探索又利用



理解重要性采样

###Importance Sample 解决的问题






重要性采样𝞺的计算中

ρt=(连乘)π(st,at)/b(st,at)

π是greedy策略,则π等于1或0,那么只要有一个π=0,那么𝞺就等于0,根本算不了𝞺

解决方案:计算𝞺时,一遇到等于0的,就停止连乘,前面非0项之积即为答案